Update attacut.py

wannaphong · wannaphong · commit c0831698e2e1 · 2020-10-20T21:54:49.000+07:00
diff --git a/pythainlp/tokenize/attacut.py b/pythainlp/tokenize/attacut.py
@@ -9,8 +9,21 @@
 
 from attacut import Tokenizer
 
-_MODEL_NAME = "attacut-sc"
-_tokenizer = Tokenizer(model=_MODEL_NAME)
+
+class attacut:
+    def __init__(self, model= "attacut-sc"):
+        if model == "attacut-sc":
+            self.load_attacut_sc()
+        else:
+            self.load_attacut_c()
+    def tokenize(self,text:str) -> List[str]:
+        return self._tokenizer.tokenize(text)
+    def load_attacut_sc(self):
+        self._MODEL_NAME = "attacut-sc"
+        self._tokenizer = Tokenizer(model=self._MODEL_NAME)
+    def load_attacut_c(self):
+        self._MODEL_NAME = "attacut-c"
+        self._tokenizer = Tokenizer(model=self._MODEL_NAME)
 
 
 def segment(text: str, model: str = "attacut-sc") -> List[str]:
@@ -24,12 +37,9 @@ def segment(text: str, model: str = "attacut-sc") -> List[str]:
         * *attacut-sc* (default) using both syllable and character features
         * *attacut-c* using only character feature
     """
-    global _MODEL_NAME, _tokenizer
     if not text or not isinstance(text, str):
         return []
 
-    if model != _MODEL_NAME:
-        _MODEL_NAME = model
-        _tokenizer = Tokenizer(model=_MODEL_NAME)
+    _tokenizer = attacut(model)
 
     return _tokenizer.tokenize(text)