Clean up test

mthrok · mthrok · commit 2c9a306304d9 · 2020-12-17T03:58:49.000Z
diff --git a/test/data/test_functional.py b/test/data/test_functional.py
@@ -107,17 +107,24 @@ def test_BasicEnglishNormalize(self):
         self.assertEqual(eager_tokens, ref_results)
         self.assertEqual(experimental_eager_tokens, ref_results)
 
-        # test pybind load and save
-        save_path = os.path.join(self.test_dir, 'basic_english_normalize_pybind.pt')
-        torch.save(basic_eng_norm, save_path)
-        loaded_basic_eng_norm = torch.load(save_path)
-        self.assertEqual(loaded_basic_eng_norm(test_sample), ref_results)
-
-        # test torchscript load and save
-        save_path = os.path.join(self.test_dir, 'basic_english_normalize_torchscrip.pt')
-        torch.save(basic_eng_norm.to_ivalue(), save_path)
-        loaded_basic_eng_norm = torch.load(save_path)
-        self.assertEqual(loaded_basic_eng_norm(test_sample), ref_results)
+    def test_basicEnglishNormalize_load_and_save(self):
+        test_sample = '\'".<br />,()!?;:   Basic English Normalization for a Line of Text   \'".<br />,()!?;:'
+        ref_results = ["'", '.', ',', '(', ')', '!', '?', 'basic', 'english', 'normalization',
+                       'for', 'a', 'line', 'of', 'text', "'", '.', ',', '(', ')', '!', '?']
+
+        with self.subTest('pybind'):
+            save_path = os.path.join(self.test_dir, 'ben_pybind.pt')
+            ben = basic_english_normalize()
+            torch.save(ben, save_path)
+            loaded_ben = torch.load(save_path)
+            self.assertEqual(loaded_ben(test_sample), ref_results)
+
+        with self.subTest('torchscript'):
+            save_path = os.path.join(self.test_dir, 'ben_torchscrip.pt')
+            ben = basic_english_normalize().to_ivalue()
+            torch.save(ben, save_path)
+            loaded_ben = torch.load(save_path)
+            self.assertEqual(loaded_ben(test_sample), ref_results)
 
     # TODO(Nayef211): remove decorator once	https://github.com/pytorch/pytorch/issues/38207 is closed
     @unittest.skipIf(platform.system() == "Windows", "Test is known to fail on Windows.")
@@ -151,19 +158,39 @@ def test_RegexTokenizer(self):
         self.assertEqual(eager_tokens, ref_results)
         self.assertEqual(jit_tokens, ref_results)
 
-        # test pybind load and save
-        save_path = os.path.join(self.test_dir, 'regex_pybind.pt')
-        torch.save(r_tokenizer, save_path)
-        loaded_r_tokenizer = torch.load(save_path)
-        loaded_eager_tokens = loaded_r_tokenizer(test_sample)
-        self.assertEqual(loaded_eager_tokens, ref_results)
-
-        # test torchscript load and save
-        save_path = os.path.join(self.test_dir, 'regex_torchscript.pt')
-        torch.save(r_tokenizer.to_ivalue(), save_path)
-        loaded_r_tokenizer = torch.load(save_path)
-        loaded_eager_tokens = loaded_r_tokenizer(test_sample)
-        self.assertEqual(loaded_eager_tokens, ref_results)
+    def test_load_and_save(self):
+        test_sample = '\'".<br />,()!?;:   Basic Regex Tokenization for a Line of Text   \'".<br />,()!?;:'
+        ref_results = ["'", '.', ',', '(', ')', '!', '?', 'Basic', 'Regex', 'Tokenization',
+                       'for', 'a', 'Line', 'of', 'Text', "'", '.', ',', '(', ')', '!', '?']
+        patterns_list = [
+            (r'\'', ' \'  '),
+            (r'\"', ''),
+            (r'\.', ' . '),
+            (r'<br \/>', ' '),
+            (r',', ' , '),
+            (r'\(', ' ( '),
+            (r'\)', ' ) '),
+            (r'\!', ' ! '),
+            (r'\?', ' ? '),
+            (r'\;', ' '),
+            (r'\:', ' '),
+            (r'\s+', ' ')]
+
+        with self.subTest('pybind'):
+            save_path = os.path.join(self.test_dir, 'regex_pybind.pt')
+            tokenizer = regex_tokenizer(patterns_list)
+            torch.save(tokenizer, save_path)
+            loaded_tokenizer = torch.load(save_path)
+            results = loaded_tokenizer(test_sample)
+            self.assertEqual(results, ref_results)
+
+        with self.subTest('torchscript'):
+            save_path = os.path.join(self.test_dir, 'regex_torchscript.pt')
+            tokenizer = regex_tokenizer(patterns_list).to_ivalue()
+            torch.save(tokenizer, save_path)
+            loaded_tokenizer = torch.load(save_path)
+            results = loaded_tokenizer(test_sample)
+            self.assertEqual(results, ref_results)
 
     def test_custom_replace(self):
         custom_replace_transform = custom_replace([(r'S', 's'), (r'\s+', ' ')])
diff --git a/test/experimental/test_transforms.py b/test/experimental/test_transforms.py
@@ -57,7 +57,6 @@ def test_vector_transform(self):
 
     def test_sentencepiece_load_and_save(self):
         model_path = get_asset_path('spm_example.model')
-        spm = sentencepiece_tokenizer((model_path))
         input = 'SentencePiece is an unsupervised text tokenizer and detokenizer'
         expected = [
             '▁Sent', 'ence', 'P', 'ie', 'ce', '▁is',
@@ -66,14 +65,16 @@ def test_sentencepiece_load_and_save(self):
             '▁de', 'to', 'ken', 'izer',
         ]
 
-        # test pybind load and save
-        save_path = os.path.join(self.test_dir, 'spm_pybind.pt')
-        torch.save(spm, save_path)
-        loaded_spm = torch.load(save_path)
-        self.assertEqual(expected, loaded_spm(input))
+        with self.subTest('pybind'):
+            save_path = os.path.join(self.test_dir, 'spm_pybind.pt')
+            spm = sentencepiece_tokenizer((model_path))
+            torch.save(spm, save_path)
+            loaded_spm = torch.load(save_path)
+            self.assertEqual(expected, loaded_spm(input))
 
-        # test torchscript load and save
-        save_path = os.path.join(self.test_dir, 'spm_torchscript.pt')
-        torch.save(spm.to_ivalue(), save_path)
-        loaded_spm = torch.load(save_path)
-        self.assertEqual(expected, loaded_spm(input))
+        with self.subTest('torchscript'):
+            save_path = os.path.join(self.test_dir, 'spm_torchscript.pt')
+            spm = sentencepiece_tokenizer((model_path)).to_ivalue()
+            torch.save(spm, save_path)
+            loaded_spm = torch.load(save_path)
+            self.assertEqual(expected, loaded_spm(input))
diff --git a/test/experimental/test_vectors.py b/test/experimental/test_vectors.py
@@ -111,35 +111,49 @@ def test_vectors_add_item(self):
         self.assertEqual(vectors_obj['b'], tensorB)
         self.assertEqual(vectors_obj['not_in_it'], unk_tensor)
 
-    def test_vectors_load_and_save(self):
+    def test_vectors_update(self):
         tensorA = torch.tensor([1, 0], dtype=torch.float)
         tensorB = torch.tensor([0, 1], dtype=torch.float)
+        tensorC = torch.tensor([1, 1], dtype=torch.float)
+
         expected_unk_tensor = torch.tensor([0, 0], dtype=torch.float)
 
         tokens = ['a', 'b']
         vecs = torch.stack((tensorA, tensorB), 0)
         vectors_obj = build_vectors(tokens, vecs)
 
-        tensorC = torch.tensor([1, 1], dtype=torch.float)
         vectors_obj['b'] = tensorC
 
-        # test pybind load and save
-        vector_path = os.path.join(self.test_dir, 'vectors_pybind.pt')
-        torch.save(vectors_obj, vector_path)
-        loaded_vectors_obj = torch.load(vector_path)
+        self.assertEqual(vectors_obj['a'], tensorA)
+        self.assertEqual(vectors_obj['b'], tensorC)
+        self.assertEqual(vectors_obj['not_in_it'], expected_unk_tensor)
+
+    def test_vectors_load_and_save(self):
+        tensorA = torch.tensor([1, 0], dtype=torch.float)
+        tensorB = torch.tensor([0, 1], dtype=torch.float)
+        expected_unk_tensor = torch.tensor([0, 0], dtype=torch.float)
+
+        tokens = ['a', 'b']
+        vecs = torch.stack((tensorA, tensorB), 0)
+        vectors_obj = build_vectors(tokens, vecs)
+
+        with self.subTest('pybind'):
+            vector_path = os.path.join(self.test_dir, 'vectors_pybind.pt')
+            torch.save(vectors_obj, vector_path)
+            loaded_vectors_obj = torch.load(vector_path)
 
-        self.assertEqual(loaded_vectors_obj['a'], tensorA)
-        self.assertEqual(loaded_vectors_obj['b'], tensorC)
-        self.assertEqual(loaded_vectors_obj['not_in_it'], expected_unk_tensor)
+            self.assertEqual(loaded_vectors_obj['a'], tensorA)
+            self.assertEqual(loaded_vectors_obj['b'], tensorB)
+            self.assertEqual(loaded_vectors_obj['not_in_it'], expected_unk_tensor)
 
-        # test torchscript load and save
-        vector_path = os.path.join(self.test_dir, 'vectors_torchscript.pt')
-        torch.save(vectors_obj.to_ivalue(), vector_path)
-        loaded_vectors_obj = torch.load(vector_path)
+        with self.subTest('torchscript'):
+            vector_path = os.path.join(self.test_dir, 'vectors_torchscript.pt')
+            torch.save(vectors_obj.to_ivalue(), vector_path)
+            loaded_vectors_obj = torch.load(vector_path)
 
-        self.assertEqual(loaded_vectors_obj['a'], tensorA)
-        self.assertEqual(loaded_vectors_obj['b'], tensorC)
-        self.assertEqual(loaded_vectors_obj['not_in_it'], expected_unk_tensor)
+            self.assertEqual(loaded_vectors_obj['a'], tensorA)
+            self.assertEqual(loaded_vectors_obj['b'], tensorB)
+            self.assertEqual(loaded_vectors_obj['not_in_it'], expected_unk_tensor)
 
     # we separate out these errors because Windows runs into seg faults when propagating
     # exceptions from C++ using pybind11
diff --git a/test/experimental/test_vocab.py b/test/experimental/test_vocab.py
@@ -199,19 +199,19 @@ def test_vocab_load_and_save(self):
         self.assertEqual(v.get_itos(), expected_itos)
         self.assertEqual(dict(v.get_stoi()), expected_stoi)
 
-        # test pybind load and save
-        vocab_path = os.path.join(self.test_dir, 'vocab_pybind.pt')
-        torch.save(v, vocab_path)
-        loaded_v = torch.load(vocab_path)
-        self.assertEqual(v.get_itos(), expected_itos)
-        self.assertEqual(dict(loaded_v.get_stoi()), expected_stoi)
-
-        # test torchscript load and save
-        vocab_path = os.path.join(self.test_dir, 'vocab_torchscript.pt')
-        torch.save(v.to_ivalue(), vocab_path)
-        loaded_v = torch.load(vocab_path)
-        self.assertEqual(v.get_itos(), expected_itos)
-        self.assertEqual(dict(loaded_v.get_stoi()), expected_stoi)
+        with self.subTest('pybind'):
+            vocab_path = os.path.join(self.test_dir, 'vocab_pybind.pt')
+            torch.save(v, vocab_path)
+            loaded_v = torch.load(vocab_path)
+            self.assertEqual(v.get_itos(), expected_itos)
+            self.assertEqual(dict(loaded_v.get_stoi()), expected_stoi)
+
+        with self.subTest('torchscript'):
+            vocab_path = os.path.join(self.test_dir, 'vocab_torchscript.pt')
+            torch.save(v.to_ivalue(), vocab_path)
+            loaded_v = torch.load(vocab_path)
+            self.assertEqual(v.get_itos(), expected_itos)
+            self.assertEqual(dict(loaded_v.get_stoi()), expected_stoi)
 
     def test_build_vocab_iterator(self):
         iterator = [['hello', 'hello', 'hello', 'freq_low', 'hello', 'world', 'world', 'world', 'ᑌᑎIᑕOᗪᕮ_Tᕮ᙭T',