- applied ngrams change to Strings, updated tests

esalesky · esalesky · commit 921719d7c348 · 2015-08-11T10:58:53.000-04:00
diff --git a/src/features.jl b/src/features.jl
@@ -20,19 +20,19 @@ export ngrams, count, tfnorm, sparse_count, norm, znorm, ngram_iterator, ngrams!
 
 immutable NgramStringIterator 
   string :: String
-  order :: Int32
+  order  :: Int32
   truncated_start :: Bool
 end
 type StringPosition
-  start  :: Int32
-  fin    :: Int32
-  nth    :: Int32
+  start :: Int32
+  fin   :: Int32
+  nth   :: Int32
 end
 
 function start(ngi :: NgramStringIterator) 
   if ngi.truncated_start 
     idx = 1
-    for i = 1:(ngi.order-1)
+    for i = 1:(ngi.order-1)  #necessary because strings are indexed to bytes, not characters
       idx = nextind(ngi.string, idx)
     end
     return StringPosition(1, idx, ngi.order)
@@ -41,14 +41,20 @@ function start(ngi :: NgramStringIterator)
   end
 end
 
-done(ngi :: NgramStringIterator, position) = position.fin > endof(ngi.string)
+done(ngi :: NgramStringIterator, position) = position.nth > ngi.order || position.fin > endof(ngi.string)
 function next(ngi :: NgramStringIterator, position)
   str = make_string(ngi.string, position.start, position.fin)
-  if position.nth >= ngi.order
-    position.start = nextind(ngi.string, position.start)
+
+  if position.fin >= endof(ngi.string)
+    position.start = 0
+    position.fin   = 1
+    for i = 1:position.nth-1
+      position.fin = nextind(ngi.string, position.fin)
+    end
+    position.nth  += 1
   end
-  position.nth += 1
-  position.fin  = nextind(ngi.string, position.fin)
+  position.start = nextind(ngi.string, position.start)
+  position.fin   = nextind(ngi.string, position.fin)
   return str, position
 end
 
@@ -100,7 +106,6 @@ function sparse_count(text, bkg)
   return vec
 end
 
-
 function dict_count(tokens)
   map = DefaultDict{String,Int32}()
   for w in tokens
diff --git a/test/lid.jl b/test/lid.jl
@@ -19,7 +19,7 @@ confmat = DefaultDict(String, DefaultDict{String, Int32}, () -> DefaultDict(Stri
 res     = test_classification(model, lazy_map(x -> fextractor(lid_iterating_tokenizer(x)), test), test_truth, record = (t, h) -> confmat[t][h] += 1) * 100.0
 @info @sprintf("mira test set error rate: %7.3f", res)
 print_confusion_matrix(confmat)
-@expect abs(res - 0.596) < 0.01
+@expect abs(res - 0.700) < 0.01
 
 # List specific errors
 # for (text, t) in zip(test, test_truth)
diff --git a/test/runtests.jl b/test/runtests.jl
@@ -52,10 +52,10 @@ end
 # feature extraction
 # -------------------------------------------------------------------------------------------------------------------------
 # ngrams from arrays
-@expect ngrams(["a", "b", "c"], order = 3)                         == ["a", "a b", "a b c"]
+@expect ngrams(["a", "b", "c"], order = 3)                         == ["a", "b", "c", "a b", "b c", "a b c"]
 @expect ngrams(["a", "b", "c"], order = 3, truncated_start = true) == ["a b c"]
 
-@expect ngrams(["a", "b", "c"], order = 2)                         == ["a", "a b", "b c"]
+@expect ngrams(["a", "b", "c"], order = 2)                         == ["a", "b", "c", "a b", "b c"]
 @expect ngrams(["a", "b", "c"], order = 2, truncated_start = true) == ["a b", "b c"]
 
 @expect ngrams(["a", "b", "c"], order = 1)                         == ["a", "b", "c"]
@@ -65,59 +65,59 @@ end
 @expect ngrams(["a"], order = 3, truncated_start = true)           == []
 
 # ngrams from strings
-@expect ngrams("abc", order = 3)                           == ["a", "ab", "abc"]
+@expect ngrams("abc", order = 3)                           == ["a", "b", "c", "ab", "bc", "abc"]
 @expect ngrams("abc", order = 3, truncated_start = true)   == ["abc"]
 
-@expect ngrams("abc", order = 2)                           == ["a", "ab", "bc"]
+@expect ngrams("abc", order = 2)                           == ["a", "b", "c", "ab", "bc"]
 @expect ngrams("abc", order = 2, truncated_start = true)   == ["ab", "bc"]
 
 @expect ngrams("abc", order = 1)                           == ["a", "b", "c"]
 @expect ngrams("abc", order = 1, truncated_start = true)   == ["a", "b", "c"]
 
 @expect ngrams("a", order = 3)                             == ["a"]
-@expect ngrams("ab", order = 3)                            == ["a", "ab"]
-@expect ngrams("abcd", order = 3)                          == ["a", "ab", "abc", "bcd"]
+@expect ngrams("ab", order = 3)                            == ["a", "b", "ab"]
+@expect ngrams("abcd", order = 3)                          == ["a", "b", "c", "d", "ab", "bc", "cd", "abc", "bcd"]
 @expect ngrams("a", order = 3, truncated_start = true)     == []
 @expect ngrams("ab", order = 3, truncated_start = true)    == []
 @expect ngrams("abcd", order = 3, truncated_start = true)  == ["abc", "bcd"]
 
 @expect ngrams("是的", order = 1)                          == ["是", "的"]
-@expect ngrams("是的", order = 2)                          == ["是", "是的"]
-@expect ngrams("是的", order = 3)                          == ["是", "是的"]
+@expect ngrams("是的", order = 2)                          == ["是", "的", "是的"]
+@expect ngrams("是的", order = 3)                          == ["是", "的", "是的"]
 @expect ngrams("是的", order = 3, truncated_start = true)  == []
 
 @expect ngrams("陇陇*", order = 1)                         == ["陇", "陇", "*"]
-@expect ngrams("陇陇*", order = 2)                         == ["陇", "陇陇", "陇*"]
-@expect ngrams("陇陇*", order = 3)                         == ["陇", "陇陇", "陇陇*"]
+@expect ngrams("陇陇*", order = 2)                         == ["陇", "陇", "*", "陇陇", "陇*"]
+@expect ngrams("陇陇*", order = 3)                         == ["陇", "陇", "*", "陇陇", "陇*", "陇陇*"]
 @expect ngrams("陇陇*", order = 3, truncated_start = true) == ["陇陇*"]
 
 @expect ngrams("", order = 1)                              == []
 
 # ngram iterator
-@expect collect(ngram_iterator("abc", order = 3))                           == ["a", "ab", "abc"]
+@expect collect(ngram_iterator("abc", order = 3))                           == ["a", "b", "c", "ab", "bc", "abc"]
 @expect collect(ngram_iterator("abc", order = 3, truncated_start = true))   == ["abc"]
 
-@expect collect(ngram_iterator("abc", order = 2))                           == ["a", "ab", "bc"]
+@expect collect(ngram_iterator("abc", order = 2))                           == ["a", "b", "c", "ab", "bc"]
 @expect collect(ngram_iterator("abc", order = 2, truncated_start = true))   == ["ab", "bc"]
 
 @expect collect(ngram_iterator("abc", order = 1))                           == ["a", "b", "c"]
 @expect collect(ngram_iterator("abc", order = 1, truncated_start = true))   == ["a", "b", "c"]
 
 @expect collect(ngram_iterator("a", order = 3))                             == ["a"]
-@expect collect(ngram_iterator("ab", order = 3))                            == ["a", "ab"]
-@expect collect(ngram_iterator("abcd", order = 3))                          == ["a", "ab", "abc", "bcd"]
+@expect collect(ngram_iterator("ab", order = 3))                            == ["a", "b", "ab"]
+@expect collect(ngram_iterator("abcd", order = 3))                          == ["a", "b", "c", "d", "ab", "bc", "cd", "abc", "bcd"]
 @expect collect(ngram_iterator("a", order = 3, truncated_start = true))     == []
 @expect collect(ngram_iterator("ab", order = 3, truncated_start = true))    == []
 @expect collect(ngram_iterator("abcd", order = 3, truncated_start = true))  == ["abc", "bcd"]
 
 @expect collect(ngram_iterator("是的", order = 1))                          == ["是", "的"]
-@expect collect(ngram_iterator("是的", order = 2))                          == ["是", "是的"]
-@expect collect(ngram_iterator("是的", order = 3))                          == ["是", "是的"]
+@expect collect(ngram_iterator("是的", order = 2))                          == ["是", "的", "是的"]
+@expect collect(ngram_iterator("是的", order = 3))                          == ["是", "的", "是的"]
 @expect collect(ngram_iterator("是的", order = 3, truncated_start = true))  == []
 
 @expect collect(ngram_iterator("陇陇*", order = 1))                         == ["陇", "陇", "*"]
-@expect collect(ngram_iterator("陇陇*", order = 2))                         == ["陇", "陇陇", "陇*"]
-@expect collect(ngram_iterator("陇陇*", order = 3))                         == ["陇", "陇陇", "陇陇*"]
+@expect collect(ngram_iterator("陇陇*", order = 2))                         == ["陇", "陇", "*", "陇陇", "陇*"]
+@expect collect(ngram_iterator("陇陇*", order = 3))                         == ["陇", "陇", "*", "陇陇", "陇*", "陇陇*"]
 @expect collect(ngram_iterator("陇陇*", order = 3, truncated_start = true)) == ["陇陇*"]
 
 @expect collect(ngram_iterator("", order = 1))                              == []
@@ -150,5 +150,3 @@ bkg = make_background(lines, mincount = 2)
 
 include("lid.jl")
 include("topic.jl")
-
-