update decoding logic to handle special tokens

reachsumit · reachsumit · commit ac53d382b04c · 2022-10-04T12:55:56.000-07:00
diff --git a/test/torchtext_unittest/test_transforms.py b/test/torchtext_unittest/test_transforms.py
@@ -560,6 +560,140 @@ def _gpt2_bpe_decoder(self, tokenizer):
         for idx, ids in enumerate(sample_ids):
             self.assertEqual(tokenizer.decode(ids), expected_texts[idx])
 
+    def _gpt2_bpe_decoder_with_special_tokens(self, tokenizer):
+        sample_ids = [
+            [
+                "27",
+                "91",
+                "437",
+                "1659",
+                "5239",
+                "91",
+                "29",
+                "290",
+                "1279",
+                "91",
+                "437",
+                "1659",
+                "5239",
+                "91",
+                "29",
+                "389",
+                "2041",
+                "1279",
+                "91",
+                "437",
+                "1659",
+                "1370",
+                "91",
+                "29",
+                "318",
+                "407",
+                "0",
+            ],
+            [
+                "9288",
+                "15859",
+                "8905",
+                "51",
+                "1279",
+                "615",
+                "603",
+                "62",
+                "4658",
+                "29",
+                "351",
+                "27196",
+                "24027",
+                "1279",
+                "91",
+                "437",
+                "1659",
+                "5239",
+                "91",
+                "29",
+                "290",
+                "8005",
+                "62",
+                "44710",
+            ],
+            ["7355", "67", "34655", "569", "81", "32790", "1228", "1990", "72", "38325", "6184", "106", "77"],
+            [
+                "40",
+                "423",
+                "281",
+                "16882",
+                "1359",
+                "428",
+                "318",
+                "257",
+                "1332",
+                "1279",
+                "91",
+                "437",
+                "1659",
+                "5239",
+                "91",
+                "29",
+            ],
+        ]
+
+        expected_texts = [
+            "<|endoftext|> and <|endoftext|> are special <|endofline|> is not!",
+            "test ACCEPT <avail_actions> with DECLINE <|endoftext|> and NO_ACTION",
+            "Avdija Vršajević în",
+            "I have an inkling this is a test <|endoftext|>",
+        ]
+
+        for idx, ids in enumerate(sample_ids):
+            self.assertEqual(tokenizer.decode(ids), expected_texts[idx])
+
+        newly_added = tokenizer.add_special_tokens(
+            special_tokens_dict={
+                "unk_token": "<|endoftext|>",
+                "sep_token": "<avail_actions>",
+                "additional_special_tokens": [
+                    "ACCEPT",
+                    "DECLINE",
+                    "inkling",
+                ],
+            }
+        )
+        self.assertEqual(newly_added, 4)
+
+        sample_ids = [
+            [
+                "50256",
+                "392",
+                "50256",
+                "533",
+                "2041",
+                "1279",
+                "91",
+                "437",
+                "1659",
+                "1370",
+                "91",
+                "29",
+                "318",
+                "407",
+                "0",
+            ],
+            ["9288", "50258", "50257", "4480", "50259", "50256", "392", "8005", "62", "44710"],
+            ["7355", "67", "34655", "569", "81", "32790", "1228", "1990", "72", "38325", "6184", "106", "77"],
+            ["40", "423", "281", "50260", "5661", "318", "257", "1332", "50256"],
+        ]
+
+        expected_texts = [
+            "<|endoftext|> and <|endoftext|> are special <|endofline|> is not!",
+            "test ACCEPT <avail_actions> with DECLINE <|endoftext|> and NO_ACTION",
+            "Avdija Vršajević în",
+            "I have an inkling this is a test <|endoftext|>",
+        ]
+
+        for idx, ids in enumerate(sample_ids):
+            self.assertEqual(tokenizer.decode(ids), expected_texts[idx])
+
     @nested_params([True, False], [True, False])
     def test_gpt2_bpe_tokenizer(self, test_scripting, return_tokens):
         """test tokenization on single sentence input as well as batch on sentences"""
@@ -568,6 +702,7 @@ def test_gpt2_bpe_tokenizer(self, test_scripting, return_tokens):
     def test_gpt2_bpe_decoder(self):
         """test string output returned by decoder given the token ids"""
         self._gpt2_bpe_decoder(self._load_tokenizer(test_scripting=False, return_tokens=False))
+        self._gpt2_bpe_decoder_with_special_tokens(self._load_tokenizer(test_scripting=False, return_tokens=False))
 
     @nested_params([True, False])
     def test_gpt2_bpe_tokenizer_with_added_vocab(self, return_tokens):
diff --git a/torchtext/csrc/gpt2_bpe_tokenizer.cpp b/torchtext/csrc/gpt2_bpe_tokenizer.cpp
@@ -381,8 +381,8 @@ std::vector<std::string> GPT2BPEEncoder::PreTokenize_(std::string input) {
 std::vector<int64_t> GPT2BPEEncoder::Encode(const std::string& text) {
   std::vector<int64_t> bpe_token_ids;
   for (const auto& token : PreTokenize_(text)) {
-    if (added_tokens_encoder.contains(token)) {
-      bpe_token_ids.push_back(added_tokens_encoder.at(token));
+    if (added_tokens_encoder_.contains(token)) {
+      bpe_token_ids.push_back(added_tokens_encoder_.at(token));
       continue;
     }
     bool is_never_split_token =
@@ -397,18 +397,45 @@ std::vector<int64_t> GPT2BPEEncoder::Encode(const std::string& text) {
 
 std::string GPT2BPEEncoder::Decode(const std::vector<int64_t>& tokens) {
   std::string text;
+  std::vector<bool> special_token_flags(tokens.size());
   // setup converter for converting wide chars to/from chars
   using convert_type = std::codecvt_utf8<wchar_t>;
   std::wstring_convert<convert_type, wchar_t> converter;
 
-  for (const auto token : tokens) {
-    // get unicode string for given integer key
-    const std::string str = bpe_decoder_.at(token);
-    const std::wstring ws = converter.from_bytes(str);
-    for (wchar_t wchr : ws) {
-      // get output character from byte decoder for each wide character
-      unsigned char uchr = byte_decoder_.at(converter.to_bytes(wchr));
-      text.push_back(uchr);
+  for (int tok_idx = 0; tok_idx < tokens.size(); tok_idx++) {
+    const auto token = tokens[tok_idx];
+    std::string decoded_token;
+
+    if (added_tokens_decoder_.contains(token)) {
+      // string is a special token from extended vocab
+      decoded_token = added_tokens_decoder_.at(token);
+      special_token_flags[tok_idx] = true;
+    } else {
+      const std::string str = bpe_decoder_.at(token);
+      if (bpe_never_split_set_.find(str) != bpe_never_split_set_.end()) {
+        // string is a special token from known vocab
+        decoded_token = str;
+        special_token_flags[tok_idx] = true;
+      } else {
+        // string is a regular token from known vocab
+        const std::wstring ws = converter.from_bytes(str);
+        for (wchar_t wchr : ws) {
+          // get output character from byte decoder for each wide character
+          unsigned char uchr = byte_decoder_.at(converter.to_bytes(wchr));
+          decoded_token.push_back(uchr);
+        }
+      }
+    }
+
+    // fix left space(s) for special tokens
+    if (special_token_flags[tok_idx] == true &&
+        (tok_idx > 0 && special_token_flags[tok_idx - 1] == false)) {
+      text.push_back(' ');
+    }
+    text.append(decoded_token);
+    // fix right space(s) for special tokens
+    if (special_token_flags[tok_idx] == true && tok_idx != tokens.size() - 1) {
+      text.push_back(' ');
     }
   }
   return text;
@@ -433,30 +460,34 @@ int64_t GPT2BPEEncoder::AddSpecialTokens(
   int64_t newly_added = 0;
 
   /* All special tokens get added to `bpe_never_split_set_` set to avoid being
-   * split during tokenization. Tokens are added to `added_tokens_encoder` only
-   * if they are not already known (i.e. present in `bpe_encoder_`).
+   * split during tokenization. Tokens are added to `added_tokens_encoder_` only
+   * if they are not already known (i.e. not already present in `bpe_encoder_`).
    */
 
   // Loop for standard tokens such as "bos_token", "eos_token", etc.
   for (auto const& token : standard_special_tokens_dict) {
-    if (added_tokens_encoder.contains(token.value()))
+    if (added_tokens_encoder_.contains(token.value()))
       continue;
     bpe_never_split_set_.insert(token.value());
     if (!bpe_encoder_.contains(token.value())) {
-      added_tokens_encoder.insert(
-          token.value(), bpe_encoder_.size() + added_tokens_encoder.size());
+      added_tokens_encoder_.insert(
+          token.value(), bpe_encoder_.size() + added_tokens_encoder_.size());
+      added_tokens_decoder_.insert(
+          bpe_decoder_.size() + added_tokens_decoder_.size(), token.value());
       newly_added++;
     }
   }
 
   // Loop for any additional tokens
   for (auto const& token : additional_special_tokens) {
-    if (added_tokens_encoder.contains(token))
+    if (added_tokens_encoder_.contains(token))
       continue;
     bpe_never_split_set_.insert(token);
     if (!bpe_encoder_.contains(token)) {
-      added_tokens_encoder.insert(
-          token, bpe_encoder_.size() + added_tokens_encoder.size());
+      added_tokens_encoder_.insert(
+          token, bpe_encoder_.size() + added_tokens_encoder_.size());
+      added_tokens_decoder_.insert(
+          bpe_decoder_.size() + added_tokens_decoder_.size(), token);
       newly_added++;
     }
   }
diff --git a/torchtext/csrc/gpt2_bpe_tokenizer.h b/torchtext/csrc/gpt2_bpe_tokenizer.h
@@ -62,7 +62,8 @@ struct GPT2BPEEncoder : torch::CustomClassHolder {
       std::string token,
       bool is_never_split_token);
   int64_t GetBPEMergeRank_(std::string pair);
-  c10::Dict<std::string, int64_t> added_tokens_encoder;
+  c10::Dict<std::string, int64_t> added_tokens_encoder_;
+  c10::Dict<int64_t, std::string> added_tokens_decoder_;
 
  protected:
   c10::Dict<std::string, std::vector<std::string>> cache_;