Add ES model

mthrok · mthrok · commit 82ea3892c407 · 2021-10-22T17:15:08.000-04:00
diff --git a/test/integration_tests/conftest.py b/test/integration_tests/conftest.py
@@ -34,6 +34,7 @@ def ctc_decoder():
 
 _FILES = {
     'en': 'Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.flac',
+    'es': '20130207-0900-PLENARY-7-es_20130207-13_02_05_5.flac',
 }
 
 
diff --git a/test/integration_tests/wav2vec2_pipeline_test.py b/test/integration_tests/wav2vec2_pipeline_test.py
@@ -18,6 +18,7 @@
     HUBERT_XLARGE,
     HUBERT_ASR_LARGE,
     HUBERT_ASR_XLARGE,
+    WAV2VEC2_ASR_VOXPOPULI_ES_BASE_10K,
 )
 import pytest
 
@@ -53,6 +54,7 @@ def test_pretraining_models(bundle):
         (WAV2VEC2_ASR_LARGE_LV60K_960H, 'en', 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
         (HUBERT_ASR_LARGE, 'en', 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
         (HUBERT_ASR_XLARGE, 'en', 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_VOXPOPULI_ES_BASE_10K, 'es', "la|primera|que|es|imprescindible|pensar|a|pequeña|a|escala|para|implicar|y|complementar|así|la|actuación|global"),
     ]
 )
 def test_finetune_asr_model(
diff --git a/torchaudio/pipelines/__init__.py b/torchaudio/pipelines/__init__.py
@@ -14,6 +14,7 @@
     WAV2VEC2_ASR_LARGE_LV60K_100H,
     WAV2VEC2_ASR_LARGE_LV60K_960H,
     WAV2VEC2_XLSR53,
+    WAV2VEC2_ASR_VOXPOPULI_ES_BASE_10K,
     HUBERT_BASE,
     HUBERT_LARGE,
     HUBERT_XLARGE,
@@ -44,6 +45,7 @@
     'WAV2VEC2_ASR_LARGE_LV60K_100H',
     'WAV2VEC2_ASR_LARGE_LV60K_960H',
     'WAV2VEC2_XLSR53',
+    'WAV2VEC2_ASR_VOXPOPULI_ES_BASE_10K',
     'HUBERT_BASE',
     'HUBERT_LARGE',
     'HUBERT_XLARGE',
diff --git a/torchaudio/pipelines/_wav2vec2.py b/torchaudio/pipelines/_wav2vec2.py
@@ -1000,3 +1000,75 @@ def _get_labels():
 
 Please refer to :func:`torchaudio.pipelines.Wav2Vec2ASRBundle` for the usage.
 """  # noqa: E501
+
+
+def _get_es_labels():
+    return (
+        "|",
+        "e",
+        "a",
+        "o",
+        "s",
+        "n",
+        "r",
+        "i",
+        "l",
+        "d",
+        "c",
+        "t",
+        "u",
+        "p",
+        "m",
+        "b",
+        "q",
+        "y",
+        "g",
+        "v",
+        "h",
+        "ó",
+        "f",
+        "í",
+        "á",
+        "j",
+        "z",
+        "ñ",
+        "é",
+        "x",
+        "ú",
+        "k",
+        "w",
+        "ü",
+        "1",
+    )
+
+WAV2VEC2_ASR_VOXPOPULI_ES_BASE_10K = Wav2Vec2ASRBundle(
+    'wav2vec2_voxpopuli_base_10k_asr_es.pt',
+    {
+        "extractor_mode": "group_norm",
+        "extractor_conv_layer_config": [
+            (512, 10, 5),
+            (512, 3, 2),
+            (512, 3, 2),
+            (512, 3, 2),
+            (512, 3, 2),
+            (512, 2, 2),
+            (512, 2, 2),
+        ],
+        "extractor_conv_bias": False,
+        "encoder_embed_dim": 768,
+        "encoder_projection_dropout": 0.0,
+        "encoder_pos_conv_kernel": 128,
+        "encoder_pos_conv_groups": 16,
+        "encoder_num_layers": 12,
+        "encoder_num_heads": 12,
+        "encoder_attention_dropout": 0.0,
+        "encoder_ff_interm_features": 3072,
+        "encoder_ff_interm_dropout": 0.1,
+        "encoder_dropout": 0.0,
+        "encoder_layer_norm_first": False,
+        "encoder_layer_drop": 0.1,
+        "aux_num_out": 36
+    },
+    _labels=_get_es_labels(),
+    _sample_rate=16000,
+)

Original file line number	Diff line number	Diff line change
`@@ -34,6 +34,7 @@ def ctc_decoder():`
`34`	`34`
`35`	`35`	`_FILES = {`
`36`	`36`	`'en': 'Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.flac',`
	`37`	`+ 'es': '20130207-0900-PLENARY-7-es_20130207-13_02_05_5.flac',`
`37`	`38`	`}`
`38`	`39`
`39`	`40`
Original file line number	Diff line number	Diff line change
`@@ -18,6 +18,7 @@`
`18`	`18`	`HUBERT_XLARGE,`
`19`	`19`	`HUBERT_ASR_LARGE,`
`20`	`20`	`HUBERT_ASR_XLARGE,`
	`21`	`+ WAV2VEC2_ASR_VOXPOPULI_ES_BASE_10K,`
`21`	`22`	`)`
`22`	`23`	`import pytest`
`23`	`24`
`@@ -53,6 +54,7 @@ def test_pretraining_models(bundle):`
`53`	`54`	`(WAV2VEC2_ASR_LARGE_LV60K_960H, 'en', 'I\|HAVE\|THAT\|CURIOSITY\|BESIDE\|ME\|AT\|THIS\|MOMENT\|'),`
`54`	`55`	`(HUBERT_ASR_LARGE, 'en', 'I\|HAVE\|THAT\|CURIOSITY\|BESIDE\|ME\|AT\|THIS\|MOMENT\|'),`
`55`	`56`	`(HUBERT_ASR_XLARGE, 'en', 'I\|HAVE\|THAT\|CURIOSITY\|BESIDE\|ME\|AT\|THIS\|MOMENT\|'),`
	`57`	`+ (WAV2VEC2_ASR_VOXPOPULI_ES_BASE_10K, 'es', "la\|primera\|que\|es\|imprescindible\|pensar\|a\|pequeña\|a\|escala\|para\|implicar\|y\|complementar\|así\|la\|actuación\|global"),`
`56`	`58`	`]`
`57`	`59`	`)`
`58`	`60`	`def test_finetune_asr_model(`