PaddlePaddle · dingjiaweiww · Feb 23, 2023 · Oct 20, 2022 · Oct 25, 2022 · Oct 31, 2022
diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst
@@ -0,0 +1,72 @@
+.. _cn_overview_callbacks:
+
+paddle.audio
+---------------------
+
+
+paddle.audio 目录是飞桨在语音领域的高层 API。具体如下：
+
+-  :ref:`音频特征相关 API <about_features>`
+-  :ref:`音频处理基础函数相关 API <about_functional>`
+-  :ref:`音频 I/O 相关 API <about_backends>`
+-  :ref:`语音数据集相关 API <about_datasets>`
+
+.. _about_features:
+
+音频特征相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`LogMelSpectrogram <cn_api_audio_features_LogMelSpectrogram>` ", "计算语音特征 LogMelSpectrogram"
+    " :ref:`MelSpectrogram <cn_api_audio_features_MelSpectrogram>` ", "计算语音特征 MelSpectrogram"
+    " :ref:`MFCC <cn_api_audio_features_MFCC>` ", "计算语音特征 MFCC"
+    " :ref:`Spectrogram <cn_api_audio_features_Spectrogram>` ", "计算语音特征 Spectrogram"
+
+.. _about_functional:
+
+音频处理基础函数相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`compute_fbank_matrix <cn_api_audio_functional_compute_fbank_matrix>` ", "计算 fbank 矩阵"
+    " :ref:`create_dct <cn_api_audio_functional_create_dct>` ", "计算离散余弦变化矩阵"
+    " :ref:`fft_frequencies <cn_api_audio_functional_fft_frequencies>` ", "计算离散傅里叶采样频率"
+    " :ref:`hz_to_mel<cn_api_audio_functional_hz_to_mel>` ", "转换 hz 频率为 mel 频率"
+    " :ref:`mel_to_hz<cn_api_audio_functional_mel_to_hz>` ", "转换 mel 频率为 hz 频率"
+    " :ref:`mel_frequencies<cn_api_audio_functional_mel_frequencies>` ", "计算 mel 频率"
+    " :ref:`power_to_db<cn_api_audio_functional_power_to_db>` ", "转换能量谱为分贝"
+    " :ref:`get_window<cn_api_audio_functional_get_window>` ", "得到各种窗函数"
+
+.. _about_backends:
+
+音频 I/O 相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`get_current_backend <cn_api_audio_backends_get_current_backend>` ", "获取现在的语音 I/O 后端"
+    " :ref:`list_available_backends <cn_api_audio_backends_list_available_backends>` ", "获取可设置得语音 I/O 后端"
+    " :ref:`set_backend <cn_api_audio_backends_set_backend>` ", "设置语音 I/O 后端"
+    " :ref:`load <cn_api_audio_load>` ", "载入音频"
+    " :ref:`info <cn_api_audio_info>` ", "查询音频信息"
+    " :ref:`save <cn_api_audio_save>` ", "保存音频"
+
+.. _about_datasets:
+
+音频数据集相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`TESS <cn_api_audio_datasets_TESS>` ", "TESS 数据集"
+    " :ref:`ESC50 <cn_api_audio_datasets_ESC50>` ", "ESC50 数据集"
diff --git a/docs/api/paddle/audio/backends/get_current_backend_cn.rst b/docs/api/paddle/audio/backends/get_current_backend_cn.rst
@@ -0,0 +1,21 @@
+.. _cn_api_audio_backends_get_current_backend:
+
+get_current_backend
+-------------------------------
+
+.. py:function:: paddle.audio.backends.get_current_backend()
+
+获取现在的处理语音 I/O 的后端名称。
+
+参数
+::::::::::::
+
+返回
+:::::::::
+
+``str``，语音 I/O 的后端名称。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.backends.get_current_backend
diff --git a/docs/api/paddle/audio/backends/list_available_backends_cn.rst b/docs/api/paddle/audio/backends/list_available_backends_cn.rst
@@ -0,0 +1,21 @@
+.. _cn_api_audio_backends_list_available_backends:
+
+list_available_backends
+-------------------------------
+
+.. py:function:: paddle.audio.backends.list_available_backends()
+
+获取可用的音频 I/O 后端。
+
+参数
+::::::::::::
+
+返回
+:::::::::
+
+``List[str]``，可用的音频 I/O 后端集合。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.backends.list_available_backends
diff --git a/docs/api/paddle/audio/backends/set_backend_cn.rst b/docs/api/paddle/audio/backends/set_backend_cn.rst
@@ -0,0 +1,22 @@
+.. _cn_api_audio_backends_set_backend:
+
+set_backend
+-------------------------------
+
+.. py:function:: paddle.audio.backends.set_backend(backend_name: str)
+
+设置处理语音 I/O 的后端。
+
+参数
+::::::::::::
+
+    - **backend_name** (str) - 语音 I/O 后端名称，现支持 ``'wave_backend'`` ，如果安装了 paddleaudio >=1.0.2，则也支持 ``'soundfile'`` 。
+
+返回
+:::::::::
+无
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.backends.set_backend
diff --git a/docs/api/paddle/audio/datasets/ESC50_cn.rst b/docs/api/paddle/audio/datasets/ESC50_cn.rst
@@ -0,0 +1,27 @@
+.. _cn_api_audio_datasets_ESC50:
+
+ESC50
+-------------------------------
+
+.. py:class:: paddle.audio.datasets.ESC50(mode: str = 'train', split: int = 1, feat_type: str = 'raw', archive=None, **kwargs)
+
+
+`ESC50 <http://dx.doi.org/10.1145/2733373.2806390>`_ 数据集的实现。
+
+参数
+:::::::::
+
+  - **mode** (str，可选) - ``'train'`` 或 ``'dev'`` 模式两者之一，默认值为 ``'train'``。
+  - **split** (int，可选) - 默认是 1，指定 dev 的文件夹。
+  - **feat_type** (str，可选) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
+  - **archive** (dict，可选) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
+
+返回
+:::::::::
+
+:ref:`cn_api_io_cn_Dataset`，ESC50 数据集实例。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.datasets.ESC50
diff --git a/docs/api/paddle/audio/datasets/TESS_cn.rst b/docs/api/paddle/audio/datasets/TESS_cn.rst
@@ -0,0 +1,28 @@
+.. _cn_api_audio_datasets_TESS:
+
+TESS
+-------------------------------
+
+.. py:class:: paddle.audio.datasets.TESS(mode: str = 'train', n_folds = 5, split = 1, feat_type = 'raw', archive=None, **kwargs)
+
+
+`TESS <https://tspace.library.utoronto.ca/handle/1807/24487>`_ 数据集的实现。
+
+参数
+:::::::::
+
+  - **mode** (str，可选) - ``'train'`` 或 ``'dev'`` 模式两者之一，默认值为 ``'train'``。
+  - **n_folds** (int，可选) - 默认是 5，指定把数据集分为的文件夹数目， 1 个文件夹是 dev，其他是 train。
+  - **split** (int，可选) - 默认是 1，指定 dev 的文件夹。
+  - **feat_type** (str，可选) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
+  - **archive** (dict，可选) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
+
+返回
+:::::::::
+
+:ref:`cn_api_io_cn_Dataset`，TESS 数据集实例。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.datasets.TESS
diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
@@ -0,0 +1,40 @@
+.. _cn_api_audio_features_LogMelSpectrogram:
+
+LogMelSpectrogram
+-------------------------------
+
+.. py:class:: paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')
+
+计算给定信号的 log-mel 谱。
+
+参数
+::::::::::::
+
+    - **sr** (int，可选) - 采样率，默认 22050。
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是2.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是 True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **n_mels** (int，可选) - mel bins 的数目，默认是64。
+    - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
+    - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放，默认是 False。
+    - **norm** (Union[str，float]，可选) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化。
+    - **ref_value** (float，可选) - 参照值，如果小于 1.0，信号的 db 会被提升，相反 db 会下降，默认值为 1.0。
+    - **amin** (float，可选) - 输入的幅值的最小值，默认是1e-10。
+    - **top_db** (float，可选) - log-mel 谱的最大值(db)，默认是None。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
+
+
+返回
+:::::::::
+
+计算``LogMelSpectrogram``的可调用对象。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.features.layers.LogMelSpectrogram
diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst
@@ -0,0 +1,40 @@
+.. _cn_api_audio_features_MFCC:
+
+MFCC
+-------------------------------
+
+.. py:class:: paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')
+
+计算给定信号的 MFCC。
+
+参数
+::::::::::::
+
+    - **sr** (int，可选) - 采样率，默认 22050。
+    - **n_mfcc** (int，可选) - mfcc 的维度，默认 40。
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是2.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是 True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **n_mels** (int，可选) - mel bins 的数目，默认是64。
+    - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
+    - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放，默认是 False。
+    - **norm** (Union[str, float]，可选) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，也可以 norm=0.5，使用 p-norm 正则化。
+    - **ref_value** (float，可选) - 参照值， 如果小于 1.0，信号的 db 会被提升， 相反 db 会下降， 默认值为 1.0。
+    - **amin** (float，可选) - 输入的幅值的最小值，默认是1e-10。
+    - **top_db** (float，可选) - log-mel 谱的最大值(db)，默认是 None。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
+
+返回
+:::::::::
+
+计算``MFCC``的可调用对象。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.features.layers.MFCC
diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst
@@ -0,0 +1,37 @@
+.. _cn_api_audio_features_MelSpectrogram:
+
+MelSpectrogram
+-------------------------------
+
+.. py:class:: paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32')
+
+求得给定信号的 Mel 谱。
+
+参数
+::::::::::::
+
+    - **sr** (int，可选) - 采样率，默认 22050。
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是2.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是 True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **n_mels** (int，可选) - mel bins 的数目，默认是64。
+    - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
+    - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放，默认是 False。
+    - **norm** (Union[str, float]，可选) -计算 fbank 矩阵时正则化的种类，默认是'slaney'，也可以 norm=0.5，使用 p-norm 正则化。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
+
+
+返回
+:::::::::
+
+计算``MelSpectrogram``的可调用对象。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.features.MelSpectrogram
diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst
@@ -0,0 +1,30 @@
+.. _cn_api_audio_features_Spectrogram:
+
+Spectrogram
+-------------------------------
+
+.. py:class:: paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32')
+
+通过给定信号的短时傅里叶变换得到频谱。
+
+参数
+::::::::::::
+
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是1.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
+
+
+返回
+:::::::::
+
+计算``Spectrogram``的可调用对象.
+
+代码示例
+:::::::::
+COPY-FROM: paddle.audio.features.Spectrogram
diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
@@ -0,0 +1,30 @@
+.. _cn_api_audio_functional_compute_fbank_matrix:
+
+compute_fbank_matrix
+-------------------------------
+
+.. py:function:: paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32')
+
+计算 mel 变换矩阵。
+
+参数
+::::::::::::
+
+    - **sr** (int) - 采样率。
+    - **n_fft** (int) - fft bins 的数目。
+    - **n_mels** (float，可选) - mels bins 的数目，默认是64。
+    - **f_min** (float，可选) - 最小频率(hz)，默认是0.0。
+    - **f_max** (Optional[float]，可选) - 最大频率(hz)，默认是 None。
+    - **htk** (bool，可选) - 是否使用 htk 缩放，默认是 False。
+    - **norm** (Union[str, float]，可选) - norm 的类型，默认是'slaney'。
+    - **dtype** (str，可选) - 返回矩阵的数据类型，默认'float32'。
+
+返回
+:::::::::
+
+``paddle.Tensor``，Tensor shape (n_mels， n_fft//2 + 1)。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.compute_fbank_matrix