System test feature
[anna.git] / source / core / util / Tokenizer.cpp
index b4f6d12..d49f6ed 100644 (file)
 #include <anna/core/functions.hpp>
 #include <anna/config/defines.hpp>
 
+// temporary
+#include <iostream>
+
 using namespace std;
 using namespace anna;
 
 //static
 const int Tokenizer::MaxItem = 64;
 
+
 Tokenizer::Tokenizer() :
   a_dataBlock(true),
   a_activateStrip(false) {
@@ -53,12 +57,13 @@ Tokenizer::~Tokenizer() {
   delete [] a_items;
 }
 
-int Tokenizer::apply(const char* str, const char* separator)
+int Tokenizer::_apply(const char* str, const char* separator)
 throw(RuntimeException) {
+
   a_maxItem = 0;
 
-  if(str == NULL)
-    return 0;
+  //if(str == NULL)
+  //  return 0;
 
   DataBlock mb(str, anna_strlen(str) + 1, false);
   a_dataBlock = mb;
@@ -86,6 +91,32 @@ throw(RuntimeException) {
   return a_maxItem;
 }
 
+int Tokenizer::apply(const char *str, const char* separator, const char *tokenizeContiguous) throw(RuntimeException) {
+
+  if(str == NULL)
+    return 0;
+
+  if (!separator)
+    throw RuntimeException("Cannot tokenize with a NULL separator", ANNA_FILE_LOCATION);
+
+  if (!tokenizeContiguous) return _apply(str, separator);
+
+  std::string _str = str;
+  std::string _sep = separator;
+  std::string _tok = tokenizeContiguous;
+  if (_sep == _tok)
+    throw RuntimeException("Using the separator as artifial token is a nonsense (original behaviour)", ANNA_FILE_LOCATION);
+  if (_tok == "")
+    throw RuntimeException("Use another artifial token. Empty is a nonsense (original behaviour)", ANNA_FILE_LOCATION);
+
+  std::string seps = _sep + _sep;
+  std::size_t pos, sepsL = seps.size();
+  std::string artificialToken = _sep + _tok + _sep;
+
+  while ((pos = _str.find(seps)) != std::string::npos) _str.replace(pos, sepsL, artificialToken); 
+  return _apply(_str.c_str(), separator);
+}
+
 const char* Tokenizer::at(const int i)
 throw(RuntimeException) {
   if(i >= a_maxItem)