From f09f9c2d4210b1f28424afac036485208522b5d8 Mon Sep 17 00:00:00 2001
From: YangZhou <56786796+SmileGoat@users.noreply.github.com>
Date: Thu, 20 Oct 2022 14:23:28 +0800
Subject: [PATCH 1/5] add audio doc (#5299)

* add audio doc

* fix typo

* fix code link && punctuation

* fix typo

* fix features overivew link

* add example

* fix mfcc doc

* add get_window

* update code example

* rm example

* format

* rm code example in cn
---
 docs/api/paddle/audio/Overview_cn.rst         | 41 +++++++++++++++++++
 .../audio/features/LogMelSpectrogram_cn.rst   | 40 ++++++++++++++++++
 docs/api/paddle/audio/features/MFCC_cn.rst    | 40 ++++++++++++++++++
 .../audio/features/MelSpectrogram_cn.rst      | 37 +++++++++++++++++
 .../paddle/audio/features/Spectrogram_cn.rst  | 30 ++++++++++++++
 .../functional/compute_fbank_matrix_cn.rst    | 30 ++++++++++++++
 .../paddle/audio/functional/create_dct_cn.rst | 26 ++++++++++++
 .../audio/functional/fft_frequencies_cn.rst   | 25 +++++++++++
 .../paddle/audio/functional/get_window_cn.rst | 26 ++++++++++++
 .../paddle/audio/functional/hz_to_mel_cn.rst  | 24 +++++++++++
 .../audio/functional/mel_frequencies_cn.rst   | 27 ++++++++++++
 .../paddle/audio/functional/mel_to_hz_cn.rst  | 24 +++++++++++
 .../audio/functional/power_to_db_cn.rst       | 26 ++++++++++++
 13 files changed, 396 insertions(+)
 create mode 100644 docs/api/paddle/audio/Overview_cn.rst
 create mode 100644 docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
 create mode 100644 docs/api/paddle/audio/features/MFCC_cn.rst
 create mode 100644 docs/api/paddle/audio/features/MelSpectrogram_cn.rst
 create mode 100644 docs/api/paddle/audio/features/Spectrogram_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/create_dct_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/fft_frequencies_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/get_window_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/hz_to_mel_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/mel_frequencies_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/mel_to_hz_cn.rst
 create mode 100644 docs/api/paddle/audio/functional/power_to_db_cn.rst

diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst
new file mode 100644
index 00000000000..c88e729e3b4
--- /dev/null
+++ b/docs/api/paddle/audio/Overview_cn.rst
@@ -0,0 +1,41 @@
+.. _cn_overview_callbacks:
+
+paddle.audio
+---------------------
+
+paddle.audio 目录是飞桨在语音领域的高层 API。具体如下：
+
+-  :ref:`音频特征相关 API <about_features>`
+-  :ref:`音频处理基础函数相关 API <about_functional>`
+
+.. _about_features:
+
+音频特征相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`LogMelSpectrogram <cn_api_audio_features_LogMelSpectrogram>` ", "计算语音特征 LogMelSpectrogram"
+    " :ref:`MelSpectrogram <cn_api_audio_features_MelSpectrogram>` ", "计算语音特征 MelSpectrogram"
+    " :ref:`MFCC <cn_api_audio_features_MFCC>` ", "计算语音特征 MFCC"
+    " :ref:`Spectrogram <cn_api_audio_features_Spectrogram>` ", "计算语音特征 Spectrogram"
+
+.. _about_functional:
+
+音频处理基础函数相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`compute_fbank_matrix <cn_api_audio_functional_compute_fbank_matrix>` ", "计算 fbank 矩阵"
+    " :ref:`create_dct <cn_api_audio_functional_create_dct>` ", "计算离散余弦变化矩阵"
+    " :ref:`fft_frequencies <cn_api_audio_functional_fft_frequencies>` ", "计算离散傅里叶采样频率"
+    " :ref:`hz_to_mel<cn_api_audio_functional_hz_to_mel>` ", "转换 hz 频率为 mel 频率"
+    " :ref:`mel_to_hz<cn_api_audio_functional_mel_to_hz>` ", "转换 mel 频率为 hz 频率"
+    " :ref:`mel_frequencies<cn_api_audio_functional_mel_frequencies>` ", "计算 mel 频率"
+    " :ref:`power_to_db<cn_api_audio_functional_power_to_db>` ", "转换能量谱为分贝"
+    " :ref:`get_window<cn_api_audio_functional_get_window>` ", "得到各种窗函数"
diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
new file mode 100644
index 00000000000..e7d472e708c
--- /dev/null
+++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
@@ -0,0 +1,40 @@
+.. _cn_api_audio_features_LogMelSpectrogram:
+
+LogMelSpectrogram
+-------------------------------
+
+.. py:class:: paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')
+
+计算给定信号的 log-mel 谱。
+
+参数
+::::::::::::
+
+    - **sr** (int) - 采样率，默认 22050。
+    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str) - 窗函数名，默认'hann'。
+    - **power**  (float) - 幅度谱的指数。
+    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
+    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **n_mels** (int) - mel bins 的数目。
+    - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
+    - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放.
+    - **norm** (Union[str，float]，可选) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化.
+    - **ref_value** (float) - 参照值,如果小于 1.0，信号的 db 会被提升，相反 db 会下降，默认值为 1.0.
+    - **amin** (float) - 输入的幅值的最小值.
+    - **top_db** (float，可选) - log-mel 谱的最大值(db).
+    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'.
+
+
+返回
+:::::::::
+
+计算``LogMelSpectrogram``的可调用对象.
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.features.layers.LogMelSpectrogram
diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst
new file mode 100644
index 00000000000..b1da994754f
--- /dev/null
+++ b/docs/api/paddle/audio/features/MFCC_cn.rst
@@ -0,0 +1,40 @@
+.. _cn_api_audio_features_MFCC:
+
+MFCC
+-------------------------------
+
+.. py:class:: paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')
+
+计算给定信号的 MFCC。
+
+参数
+::::::::::::
+
+    - **sr** (int，可选) - 采样率，默认 22050。
+    - **n_mfcc** (int，可选) - mfcc 的维度，默认 40。
+    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str) - 窗函数名，默认'hann'。
+    - **power**  (float) - 幅度谱的指数。
+    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
+    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式，默认值是'reflect'.
+    - **n_mels** (int) - mel bins 的数目。
+    - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
+    - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。
+    - **norm** (Union[str，  float]，  optional) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化。
+    - **ref_value** (float) - 参照值， 如果小于 1.0，信号的 db 会被提升， 相反 db 会下降， 默认值为 1.0。
+    - **amin** (float) - 输入的幅值的最小值。
+    - **top_db** (float，可选) - log-mel 谱的最大值(db)。
+    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'。
+
+返回
+:::::::::
+
+计算``MFCC``的可调用对象。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.features.layers.MFCC
diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst
new file mode 100644
index 00000000000..0efc346e101
--- /dev/null
+++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst
@@ -0,0 +1,37 @@
+.. _cn_api_audio_features_MelSpectrogram:
+
+MelSpectrogram
+-------------------------------
+
+.. py:class:: paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32')
+
+求得给定信号的 Mel 谱。
+
+参数
+::::::::::::
+
+    - **sr** (int，可选) - 采样率，默认 22050。
+    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str) - 窗函数名，默认'hann'。
+    - **power**  (float) - 幅度谱的指数。
+    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
+    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式.默认值是'reflect'。
+    - **n_mels** (int) - mel bins 的数目。
+    - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
+    - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。
+    - **norm** (Union[str，float]，可选) -计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化。
+    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'。
+
+
+返回
+:::::::::
+
+计算``MelSpectrogram``的可调用对象。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.features.MelSpectrogram
diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst
new file mode 100644
index 00000000000..31f88cf75e8
--- /dev/null
+++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst
@@ -0,0 +1,30 @@
+.. _cn_api_audio_features_Spectrogram:
+
+Spectrogram
+-------------------------------
+
+.. py:class:: paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32')
+
+通过给定信号的短时傅里叶变换得到频谱。
+
+参数
+::::::::::::
+
+    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **hop_length**  (int，可选) - 帧移，默认 512。
+    - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
+    - **window**  (str) - 窗函数名，默认'hann'。
+    - **power**  (float) - 幅度谱的指数。
+    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
+    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式.默认值是'reflect'。
+    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'。
+
+
+返回
+:::::::::
+
+计算``Spectrogram``的可调用对象.
+
+代码示例
+:::::::::
+COPY-FROM: paddle.audio.features.Spectrogram
diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
new file mode 100644
index 00000000000..52b0b6d90bb
--- /dev/null
+++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
@@ -0,0 +1,30 @@
+.. _cn_api_audio_functional_compute_fbank_matrix:
+
+compute_fbank_matrix
+-------------------------------
+
+.. py:function:: paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32')
+
+计算 mel 变换矩阵。
+
+参数
+::::::::::::
+
+    - **sr** (int) - 采样率。
+    - **n_fft** (int) - fft bins 的数目。
+    - **n_mels** (float) - mels bins 的数目。
+    - **f_min** (float) - 最小频率(hz)。
+    - **f_max** (Optional[float]) -最大频率(hz)。
+    - **htk** (bool) -是否使用 htk 缩放。
+    - **norm** (Union[str，float]) -norm 的类型，默认是'slaney'。
+    - **dtype** (str) - 返回矩阵的数据类型，默认'float32'。
+
+返回
+:::::::::
+
+``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.compute_fbank_matrix
diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst
new file mode 100644
index 00000000000..a1a74847a12
--- /dev/null
+++ b/docs/api/paddle/audio/functional/create_dct_cn.rst
@@ -0,0 +1,26 @@
+.. _cn_api_audio_functional_create_dct:
+
+create_dct
+-------------------------------
+
+.. py:function:: paddle.audio.functional.create_dct(n_mfcc, n_mels, norm='ortho', dtype='float32')
+
+计算离散余弦变换矩阵。
+
+参数
+::::::::::::
+
+    - **n_mfcc** (float) - mel 倒谱系数数目。
+    - **n_mels** (int) - mel 的 fliterbank 数。
+    - **norm** (float) - 正则化类型, 默认值是'ortho'。
+    - **dtype** (str) - 默认'float32'。
+
+返回
+:::::::::
+
+``paddle.Tensor``,Tensor shape (n_mels, n_mfcc)。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.create_dct
diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst
new file mode 100644
index 00000000000..4d05f8ca82f
--- /dev/null
+++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst
@@ -0,0 +1,25 @@
+.. _cn_api_audio_functional_fft_frequencies:
+
+fft_frequencies
+-------------------------------
+
+.. py:function:: paddle.audio.functional.fft_frequencies(sr, n_fft, dtype='float32')
+
+计算 fft 频率。
+
+参数
+::::::::::::
+
+    - **sr** (int) - 采样率。
+    - **n_fft** (int) - fft bins 的数目。
+    - **dtype** (str) - 默认'float32'。
+
+返回
+:::::::::
+
+``paddle.Tensor``,Tensor shape (n_fft//2 + 1,)。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.fft_frequencies
diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst
new file mode 100644
index 00000000000..365bdb883a6
--- /dev/null
+++ b/docs/api/paddle/audio/functional/get_window_cn.rst
@@ -0,0 +1,26 @@
+.. _cn_api_audio_functional_get_window:
+
+get_window
+-------------------------------
+
+.. py:function:: paddle.audio.functional.get_window(window, win_length, fftbins=True, dtype='float64')
+
+根据参数给出对应长度和类型的窗函数。
+
+参数
+::::::::::::
+
+    - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'kaiser', 'gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。
+    - **win_length** (int) - 采样点数。
+    - **fftbins** (bool) -  如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。
+    - **dtype** (str) - 默认'float64'。
+
+返回
+:::::::::
+
+``paddle.Tensor``,对应窗表征的 Tensor 。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.get_window
diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst
new file mode 100644
index 00000000000..097124edbca
--- /dev/null
+++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst
@@ -0,0 +1,24 @@
+.. _cn_api_audio_functional_hz_to_mel:
+
+hz_to_mel
+-------------------------------
+
+.. py:function:: paddle.audio.functional.hz_to_mel(feq, htk=False)
+
+转换 Hz 为 Mels。
+
+参数
+::::::::::::
+
+    - **freq** (Tensor, float) - 输入 tensor。
+    - **htk** (bool) - 是否使用 htk 缩放, 默认 False。
+
+返回
+:::::::::
+
+``paddle.Tensor 或 float``, mels 值。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.hz_to_mel
diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst
new file mode 100644
index 00000000000..fc4a1dd262e
--- /dev/null
+++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst
@@ -0,0 +1,27 @@
+.. _cn_api_audio_functional_mel_frequencies:
+
+mel_frequencies
+-------------------------------
+
+.. py:function:: paddle.audio.functional.mel_frequencies(n_mels=64, f_min=0.0, f_max=11025, htk=False, dtype='float32')
+
+计算 Mels 频率。
+
+参数
+::::::::::::
+
+    - **n_mels** (int) - 输入 tensor, 默认 64。
+    - **f_min** (float) - 最小频率(hz), 默认 0.0。
+    - **f_max** (float) - 最大频率(hz), 默认 11025.0。
+    - **htk** (bool) - 是否使用 htk 缩放, 默认 False。
+    - **dtype** (str) - 默认'float32'。
+
+返回
+:::::::::
+
+``paddle.Tensor``,Tensor shape (n_mels,)。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.mel_frequencies
diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst
new file mode 100644
index 00000000000..48a2464fa75
--- /dev/null
+++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst
@@ -0,0 +1,24 @@
+.. _cn_api_audio_functional_mel_to_hz:
+
+mel_to_hz
+-------------------------------
+
+.. py:function:: paddle.audio.functional.mel_to_hz(feq, htk=False)
+
+转换 Mels 为 Hz。
+
+参数
+::::::::::::
+
+    - **mel** (Tensor, float) - 输入 tensor。
+    - **htk** (bool) - 是否使用 htk 缩放, 默认 False。
+
+返回
+:::::::::
+
+``paddle.Tensor 或 float``, hz 为单位的频率。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.mel_to_hz
diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst
new file mode 100644
index 00000000000..16a4a1d4a6f
--- /dev/null
+++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst
@@ -0,0 +1,26 @@
+.. _cn_api_audio_functional_power_to_db:
+
+power_to_db
+-------------------------------
+
+.. py:function:: paddle.audio.functional.power_to_db(spect, ref_value=1.0, amin=1e-10, top_db=80.0)
+
+转换能量谱为分贝单位。
+
+参数
+::::::::::::
+
+    - **spect** (Tensor) - stft 能量谱, 输入 tensor。
+    - **ref_value** (float) - 参照值, 振幅相对于 ref 进行缩放, 默认 1.0。
+    - **amin** (float) - 最小阈值, 默认 1e-10。
+    - **top_db** (float，可选) - 阈值, 默认 80.0。
+
+返回
+:::::::::
+
+``paddle.Tensor 或 float``, db 单位的能量谱。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.functional.power_to_db

From 58b2ef37360def81c00b1f3b15936b50ca10db08 Mon Sep 17 00:00:00 2001
From: YangZhou <56786796+SmileGoat@users.noreply.github.com>
Date: Tue, 25 Oct 2022 10:15:12 +0800
Subject: [PATCH 2/5] update audio datasets && backend (#5363)

* update audio datasets && backend

* add overview

* format

* fix function info

* rm seed in TESS

* rename some api

* fix load

* fix return

* fix codestyle
---
 docs/api/paddle/audio/Overview_cn.rst         | 31 +++++++++++++++++++
 .../audio/backends/get_current_backend_cn.rst | 21 +++++++++++++
 docs/api/paddle/audio/backends/info_cn.rst    | 22 +++++++++++++
 .../backends/list_available_backends_cn.rst   | 21 +++++++++++++
 docs/api/paddle/audio/backends/load_cn.rst    | 26 ++++++++++++++++
 docs/api/paddle/audio/backends/save_cn.rst    | 26 ++++++++++++++++
 .../paddle/audio/backends/set_backend_cn.rst  | 22 +++++++++++++
 docs/api/paddle/audio/datasets/ESC50_cn.rst   | 27 ++++++++++++++++
 docs/api/paddle/audio/datasets/TESS_cn.rst    | 28 +++++++++++++++++
 9 files changed, 224 insertions(+)
 create mode 100644 docs/api/paddle/audio/backends/get_current_backend_cn.rst
 create mode 100644 docs/api/paddle/audio/backends/info_cn.rst
 create mode 100644 docs/api/paddle/audio/backends/list_available_backends_cn.rst
 create mode 100644 docs/api/paddle/audio/backends/load_cn.rst
 create mode 100644 docs/api/paddle/audio/backends/save_cn.rst
 create mode 100644 docs/api/paddle/audio/backends/set_backend_cn.rst
 create mode 100644 docs/api/paddle/audio/datasets/ESC50_cn.rst
 create mode 100644 docs/api/paddle/audio/datasets/TESS_cn.rst

diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst
index c88e729e3b4..81e66a650ba 100644
--- a/docs/api/paddle/audio/Overview_cn.rst
+++ b/docs/api/paddle/audio/Overview_cn.rst
@@ -3,10 +3,13 @@
 paddle.audio
 ---------------------
 
+
 paddle.audio 目录是飞桨在语音领域的高层 API。具体如下：
 
 -  :ref:`音频特征相关 API <about_features>`
 -  :ref:`音频处理基础函数相关 API <about_functional>`
+-  :ref:`音频 I/O 相关 API <about_backends>`
+-  :ref:`语音数据集相关 API <about_datasets>`
 
 .. _about_features:
 
@@ -39,3 +42,31 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下：
     " :ref:`mel_frequencies<cn_api_audio_functional_mel_frequencies>` ", "计算 mel 频率"
     " :ref:`power_to_db<cn_api_audio_functional_power_to_db>` ", "转换能量谱为分贝"
     " :ref:`get_window<cn_api_audio_functional_get_window>` ", "得到各种窗函数"
+
+.. _about_backends:
+
+音频 I/O 相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`get_current_backend <cn_api_audio_backends_get_current_backend>` ", "获取现在的语音 I/O 后端"
+    " :ref:`list_available_backends <cn_api_audio_backends_list_available_backends>` ", "获取可设置得语音 I/O 后端"
+    " :ref:`set_backend <cn_api_audio_backends_set_backend>` ", "设置语音 I/O 后端"
+    " :ref:`load <cn_api_audio_load>` ", "载入音频"
+    " :ref:`info <cn_api_audio_info>` ", "查询音频信息"
+    " :ref:`save <cn_api_audio_save>` ", "保存音频"
+
+.. _about_datasets:
+
+音频数据集相关 API
+::::::::::::::::::::
+
+.. csv-table::
+    :header: "API 名称", "API 功能"
+    :widths: 10, 30
+
+    " :ref:`TESS <cn_api_audio_datasets_TESS>` ", "TESS 数据集"
+    " :ref:`ESC50 <cn_api_audio_datasets_ESC50>` ", "ESC50 数据集"
diff --git a/docs/api/paddle/audio/backends/get_current_backend_cn.rst b/docs/api/paddle/audio/backends/get_current_backend_cn.rst
new file mode 100644
index 00000000000..10cb4e7bebc
--- /dev/null
+++ b/docs/api/paddle/audio/backends/get_current_backend_cn.rst
@@ -0,0 +1,21 @@
+.. _cn_api_audio_backends_get_current_backend:
+
+get_current_backend
+-------------------------------
+
+.. py:function:: paddle.audio.backends.get_current_backend()
+
+获取现在的处理语音 I/O 的后端名称。
+
+参数
+::::::::::::
+
+返回
+:::::::::
+
+``str``,语音 I/O 的后端名称。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.backends.get_current_backend
diff --git a/docs/api/paddle/audio/backends/info_cn.rst b/docs/api/paddle/audio/backends/info_cn.rst
new file mode 100644
index 00000000000..05578856483
--- /dev/null
+++ b/docs/api/paddle/audio/backends/info_cn.rst
@@ -0,0 +1,22 @@
+.. _cn_api_audio_info:
+
+info
+-------------------------------
+
+.. py:function:: paddle.audio.info(filepath:str)
+
+获取音频的相关信息，如采用率，通道数等。
+
+参数
+::::::::::::
+
+    - **filepath** (str) - 输入音频路径。
+返回
+:::::::::
+
+``AudioInfo``, 音频相关信息。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.info
diff --git a/docs/api/paddle/audio/backends/list_available_backends_cn.rst b/docs/api/paddle/audio/backends/list_available_backends_cn.rst
new file mode 100644
index 00000000000..16ff216a564
--- /dev/null
+++ b/docs/api/paddle/audio/backends/list_available_backends_cn.rst
@@ -0,0 +1,21 @@
+.. _cn_api_audio_backends_list_available_backends:
+
+list_available_backends
+-------------------------------
+
+.. py:function:: paddle.audio.backends.list_available_backends()
+
+获取可用的音频 I/O 后端。
+
+参数
+::::::::::::
+
+返回
+:::::::::
+
+``List[str]``, 可用的音频 I/O 后端集合。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.backends.list_available_backends
diff --git a/docs/api/paddle/audio/backends/load_cn.rst b/docs/api/paddle/audio/backends/load_cn.rst
new file mode 100644
index 00000000000..e36c8fc7d5e
--- /dev/null
+++ b/docs/api/paddle/audio/backends/load_cn.rst
@@ -0,0 +1,26 @@
+.. _cn_api_audio_load:
+
+load
+-------------------------------
+
+.. py:function:: paddle.audio.load(filepath: Union[str, Path], frame_offset: int = 0, num_frames: int = -1, normalize: bool = True, channels_first: bool = True)
+
+获取音频数据。
+
+参数
+::::::::::::
+
+    - **filepath** (str 或者 Path) - 输入音频路径。
+    - **frame_offset** (int) - 默认是 0，开始读取音频起始帧。
+    - **num_frames** (int) - 默认是-1，读取音频帧数, -1 表示读取全部帧。
+    - **normalize** (bool) - 默认是 True。如果是 True，返回是音频值被规整到[-1.0, 1.0]，如果是 False，那么就返回原始值。
+    - **channels_first** (bool) - 默认是 True。如果是 True，那么返回的形状是[channel，time]，如果是 False，则是[time, channel]。
+返回
+:::::::::
+
+``Tuple[paddle.Tensor, int]``, 音频数据值, 采样率。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.load
diff --git a/docs/api/paddle/audio/backends/save_cn.rst b/docs/api/paddle/audio/backends/save_cn.rst
new file mode 100644
index 00000000000..5e5ab04bce4
--- /dev/null
+++ b/docs/api/paddle/audio/backends/save_cn.rst
@@ -0,0 +1,26 @@
+.. _cn_api_audio_save:
+
+save
+-------------------------------
+
+.. py:function:: paddle.audio.save(filepath: str, src: paddle.Tensor, sample_rate: int, channels_first: bool = True, encoding: Optional[str] = None, bits_per_sample: Optional[int] = 16)
+
+保存音频数据。
+
+参数
+::::::::::::
+
+    - **filepath** (str 或者 Path) - 保存音频路径。
+    - **src** (paddle.Tensor) - 音频数据。
+    - **sample_rate** (int) - 采样率。
+    - **channels_first** (bool) - 如果是 True，那么 src 的 Tensor 形状是[channel，time]，如果是 False，则是[time, channel]。
+    - **encoding** (Optional[str]) - 默认是 None，编码信息。
+    - **bits_per_sample** (Optional[int]) - 默认是 16。编码位长。
+返回
+:::::::::
+无
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.save
diff --git a/docs/api/paddle/audio/backends/set_backend_cn.rst b/docs/api/paddle/audio/backends/set_backend_cn.rst
new file mode 100644
index 00000000000..9c02a40777d
--- /dev/null
+++ b/docs/api/paddle/audio/backends/set_backend_cn.rst
@@ -0,0 +1,22 @@
+.. _cn_api_audio_backends_set_backend:
+
+set_backend
+-------------------------------
+
+.. py:function:: paddle.audio.backends.set_backend(backend_name: str)
+
+设置处理语音 I/O 的后端。
+
+参数
+::::::::::::
+
+    - **backend_name** (str) - 语音 I/O 后端名称，现支持‘wave_backend’,如果安装了 paddleaudio >=1.0.2,则也支持‘soundfile’。
+
+返回
+:::::::::
+无
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.backends.set_backend
diff --git a/docs/api/paddle/audio/datasets/ESC50_cn.rst b/docs/api/paddle/audio/datasets/ESC50_cn.rst
new file mode 100644
index 00000000000..aae7fcfe315
--- /dev/null
+++ b/docs/api/paddle/audio/datasets/ESC50_cn.rst
@@ -0,0 +1,27 @@
+.. _cn_api_audio_datasets_ESC50:
+
+ESC50
+-------------------------------
+
+.. py:class:: paddle.audio.datasets.ESC50(mode: str = 'train', split: int = 1, feat_type: str = 'raw', archive=None, **kwargs)
+
+
+`ESC50 <http://dx.doi.org/10.1145/2733373.2806390>`_ 数据集的实现。
+
+参数
+:::::::::
+
+  - **mode** (str，可选) - ``'train'`` 或 ``'dev'`` 模式两者之一，默认值为 ``'train'``。
+  - **split** (int) - 默认是 1，指定 dev 的文件夹。
+  - **feat_type** (str) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
+  - **archive** (dict) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
+
+返回
+:::::::::
+
+:ref:`cn_api_io_cn_Dataset`，ESC50 数据集实例。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.datasets.ESC50
diff --git a/docs/api/paddle/audio/datasets/TESS_cn.rst b/docs/api/paddle/audio/datasets/TESS_cn.rst
new file mode 100644
index 00000000000..258d390bd48
--- /dev/null
+++ b/docs/api/paddle/audio/datasets/TESS_cn.rst
@@ -0,0 +1,28 @@
+.. _cn_api_audio_datasets_TESS:
+
+TESS
+-------------------------------
+
+.. py:class:: paddle.audio.datasets.TESS(mode: str = 'train', n_folds = 5, split = 1, feat_type = 'raw', archive=None, **kwargs)
+
+
+`TESS <https://tspace.library.utoronto.ca/handle/1807/24487>`_ 数据集的实现。
+
+参数
+:::::::::
+
+  - **mode** (str，可选) - ``'train'`` 或 ``'dev'`` 模式两者之一，默认值为 ``'train'``。
+  - **n_folds** (int) - 默认是 5，指定把数据集分为的文件夹数目， 1 个文件夹是 dev，其他是 train。
+  - **split** (int) - 默认是 1，指定 dev 的文件夹。
+  - **feat_type** (str) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
+  - **archive** (dict) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
+
+返回
+:::::::::
+
+:ref:`cn_api_io_cn_Dataset`，TESS 数据集实例。
+
+代码示例
+:::::::::
+
+COPY-FROM: paddle.audio.datasets.TESS

From c84cb9c56b5485c4726169561fa423e94223b1c9 Mon Sep 17 00:00:00 2001
From: YangZhou <56786796+SmileGoat@users.noreply.github.com>
Date: Mon, 31 Oct 2022 16:35:58 +0800
Subject: [PATCH 3/5] [audio] add general_gaussian, rm kaiser in get_window doc
 (#5378)

* add general_gaussian in get_window doc

* rm kaiser window
---
 docs/api/paddle/audio/functional/get_window_cn.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst
index 365bdb883a6..eb7a96db134 100644
--- a/docs/api/paddle/audio/functional/get_window_cn.rst
+++ b/docs/api/paddle/audio/functional/get_window_cn.rst
@@ -10,7 +10,7 @@ get_window
 参数
 ::::::::::::
 
-    - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'kaiser', 'gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。
+    - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'gaussian', 'general_gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。
     - **win_length** (int) - 采样点数。
     - **fftbins** (bool) -  如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。
     - **dtype** (str) - 默认'float64'。

From 6fcf0fdb27e80bb6f5f6044d5d6870a4d6eea301 Mon Sep 17 00:00:00 2001
From: YangZhou <56786796+SmileGoat@users.noreply.github.com>
Date: Thu, 24 Nov 2022 19:00:28 +0800
Subject: [PATCH 4/5] audio backends fix (#5445)

---
 docs/api/paddle/audio/{backends => }/info_cn.rst | 0
 docs/api/paddle/audio/{backends => }/load_cn.rst | 0
 docs/api/paddle/audio/{backends => }/save_cn.rst | 0
 3 files changed, 0 insertions(+), 0 deletions(-)
 rename docs/api/paddle/audio/{backends => }/info_cn.rst (100%)
 rename docs/api/paddle/audio/{backends => }/load_cn.rst (100%)
 rename docs/api/paddle/audio/{backends => }/save_cn.rst (100%)

diff --git a/docs/api/paddle/audio/backends/info_cn.rst b/docs/api/paddle/audio/info_cn.rst
similarity index 100%
rename from docs/api/paddle/audio/backends/info_cn.rst
rename to docs/api/paddle/audio/info_cn.rst
diff --git a/docs/api/paddle/audio/backends/load_cn.rst b/docs/api/paddle/audio/load_cn.rst
similarity index 100%
rename from docs/api/paddle/audio/backends/load_cn.rst
rename to docs/api/paddle/audio/load_cn.rst
diff --git a/docs/api/paddle/audio/backends/save_cn.rst b/docs/api/paddle/audio/save_cn.rst
similarity index 100%
rename from docs/api/paddle/audio/backends/save_cn.rst
rename to docs/api/paddle/audio/save_cn.rst

From 04f448f82cef9a642487d82f3a953f7256cb763e Mon Sep 17 00:00:00 2001
From: YangZhou <56786796+SmileGoat@users.noreply.github.com>
Date: Fri, 17 Feb 2023 15:42:14 +0800
Subject: [PATCH 5/5] [audio] fix optional in audio doc (#5609)

---------

Co-authored-by: Ligoml <39876205+Ligoml@users.noreply.github.com>
---
 .../audio/backends/get_current_backend_cn.rst |  2 +-
 .../backends/list_available_backends_cn.rst   |  2 +-
 .../paddle/audio/backends/set_backend_cn.rst  |  2 +-
 docs/api/paddle/audio/datasets/ESC50_cn.rst   |  6 ++--
 docs/api/paddle/audio/datasets/TESS_cn.rst    |  8 +++---
 .../audio/features/LogMelSpectrogram_cn.rst   | 28 +++++++++----------
 docs/api/paddle/audio/features/MFCC_cn.rst    | 24 ++++++++--------
 .../audio/features/MelSpectrogram_cn.rst      | 18 ++++++------
 .../paddle/audio/features/Spectrogram_cn.rst  | 12 ++++----
 .../functional/compute_fbank_matrix_cn.rst    | 14 +++++-----
 .../paddle/audio/functional/create_dct_cn.rst |  6 ++--
 .../audio/functional/fft_frequencies_cn.rst   |  4 +--
 .../paddle/audio/functional/get_window_cn.rst |  8 +++---
 .../paddle/audio/functional/hz_to_mel_cn.rst  |  4 +--
 .../audio/functional/mel_frequencies_cn.rst   | 12 ++++----
 .../paddle/audio/functional/mel_to_hz_cn.rst  |  4 +--
 .../audio/functional/power_to_db_cn.rst       | 10 +++----
 docs/api/paddle/audio/load_cn.rst             | 10 +++----
 docs/api/paddle/audio/save_cn.rst             |  6 ++--
 19 files changed, 90 insertions(+), 90 deletions(-)

diff --git a/docs/api/paddle/audio/backends/get_current_backend_cn.rst b/docs/api/paddle/audio/backends/get_current_backend_cn.rst
index 10cb4e7bebc..0cadbca12cd 100644
--- a/docs/api/paddle/audio/backends/get_current_backend_cn.rst
+++ b/docs/api/paddle/audio/backends/get_current_backend_cn.rst
@@ -13,7 +13,7 @@ get_current_backend
 返回
 :::::::::
 
-``str``,语音 I/O 的后端名称。
+``str``，语音 I/O 的后端名称。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/backends/list_available_backends_cn.rst b/docs/api/paddle/audio/backends/list_available_backends_cn.rst
index 16ff216a564..9155138a80f 100644
--- a/docs/api/paddle/audio/backends/list_available_backends_cn.rst
+++ b/docs/api/paddle/audio/backends/list_available_backends_cn.rst
@@ -13,7 +13,7 @@ list_available_backends
 返回
 :::::::::
 
-``List[str]``, 可用的音频 I/O 后端集合。
+``List[str]``，可用的音频 I/O 后端集合。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/backends/set_backend_cn.rst b/docs/api/paddle/audio/backends/set_backend_cn.rst
index 9c02a40777d..776b6f1197d 100644
--- a/docs/api/paddle/audio/backends/set_backend_cn.rst
+++ b/docs/api/paddle/audio/backends/set_backend_cn.rst
@@ -10,7 +10,7 @@ set_backend
 参数
 ::::::::::::
 
-    - **backend_name** (str) - 语音 I/O 后端名称，现支持‘wave_backend’,如果安装了 paddleaudio >=1.0.2,则也支持‘soundfile’。
+    - **backend_name** (str) - 语音 I/O 后端名称，现支持 ``'wave_backend'`` ，如果安装了 paddleaudio >=1.0.2，则也支持 ``'soundfile'`` 。
 
 返回
 :::::::::
diff --git a/docs/api/paddle/audio/datasets/ESC50_cn.rst b/docs/api/paddle/audio/datasets/ESC50_cn.rst
index aae7fcfe315..c9d40d2c6cd 100644
--- a/docs/api/paddle/audio/datasets/ESC50_cn.rst
+++ b/docs/api/paddle/audio/datasets/ESC50_cn.rst
@@ -12,9 +12,9 @@ ESC50
 :::::::::
 
   - **mode** (str，可选) - ``'train'`` 或 ``'dev'`` 模式两者之一，默认值为 ``'train'``。
-  - **split** (int) - 默认是 1，指定 dev 的文件夹。
-  - **feat_type** (str) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
-  - **archive** (dict) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
+  - **split** (int，可选) - 默认是 1，指定 dev 的文件夹。
+  - **feat_type** (str，可选) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
+  - **archive** (dict，可选) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
 
 返回
 :::::::::
diff --git a/docs/api/paddle/audio/datasets/TESS_cn.rst b/docs/api/paddle/audio/datasets/TESS_cn.rst
index 258d390bd48..7a29ef4bac0 100644
--- a/docs/api/paddle/audio/datasets/TESS_cn.rst
+++ b/docs/api/paddle/audio/datasets/TESS_cn.rst
@@ -12,10 +12,10 @@ TESS
 :::::::::
 
   - **mode** (str，可选) - ``'train'`` 或 ``'dev'`` 模式两者之一，默认值为 ``'train'``。
-  - **n_folds** (int) - 默认是 5，指定把数据集分为的文件夹数目， 1 个文件夹是 dev，其他是 train。
-  - **split** (int) - 默认是 1，指定 dev 的文件夹。
-  - **feat_type** (str) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
-  - **archive** (dict) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
+  - **n_folds** (int，可选) - 默认是 5，指定把数据集分为的文件夹数目， 1 个文件夹是 dev，其他是 train。
+  - **split** (int，可选) - 默认是 1，指定 dev 的文件夹。
+  - **feat_type** (str，可选) - 默认是 raw，raw 是原始语音，支持 mfcc，spectrogram，melspectrogram，logmelspectrogram。指定从音频提取的语音特征。
+  - **archive** (dict，可选) - 默认是 None，类中已经设置默认 archive，指定数据集的下载链接和 md5 值。
 
 返回
 :::::::::
diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
index e7d472e708c..b73998c57bc 100644
--- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
+++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
@@ -10,29 +10,29 @@ LogMelSpectrogram
 参数
 ::::::::::::
 
-    - **sr** (int) - 采样率，默认 22050。
-    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **sr** (int，可选) - 采样率，默认 22050。
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
     - **hop_length**  (int，可选) - 帧移，默认 512。
     - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
-    - **window**  (str) - 窗函数名，默认'hann'。
-    - **power**  (float) - 幅度谱的指数。
-    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
-    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
-    - **n_mels** (int) - mel bins 的数目。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是2.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是 True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **n_mels** (int，可选) - mel bins 的数目，默认是64。
     - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
     - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
-    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放.
-    - **norm** (Union[str，float]，可选) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化.
-    - **ref_value** (float) - 参照值,如果小于 1.0，信号的 db 会被提升，相反 db 会下降，默认值为 1.0.
-    - **amin** (float) - 输入的幅值的最小值.
-    - **top_db** (float，可选) - log-mel 谱的最大值(db).
-    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'.
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放，默认是 False。
+    - **norm** (Union[str，float]，可选) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化。
+    - **ref_value** (float，可选) - 参照值，如果小于 1.0，信号的 db 会被提升，相反 db 会下降，默认值为 1.0。
+    - **amin** (float，可选) - 输入的幅值的最小值，默认是1e-10。
+    - **top_db** (float，可选) - log-mel 谱的最大值(db)，默认是None。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
 
 
 返回
 :::::::::
 
-计算``LogMelSpectrogram``的可调用对象.
+计算``LogMelSpectrogram``的可调用对象。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst
index b1da994754f..2c7ef2ad4a2 100644
--- a/docs/api/paddle/audio/features/MFCC_cn.rst
+++ b/docs/api/paddle/audio/features/MFCC_cn.rst
@@ -12,22 +12,22 @@ MFCC
 
     - **sr** (int，可选) - 采样率，默认 22050。
     - **n_mfcc** (int，可选) - mfcc 的维度，默认 40。
-    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
     - **hop_length**  (int，可选) - 帧移，默认 512。
     - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
-    - **window**  (str) - 窗函数名，默认'hann'。
-    - **power**  (float) - 幅度谱的指数。
-    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
-    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式，默认值是'reflect'.
-    - **n_mels** (int) - mel bins 的数目。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是2.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是 True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **n_mels** (int，可选) - mel bins 的数目，默认是64。
     - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
     - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
-    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。
-    - **norm** (Union[str，  float]，  optional) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化。
-    - **ref_value** (float) - 参照值， 如果小于 1.0，信号的 db 会被提升， 相反 db 会下降， 默认值为 1.0。
-    - **amin** (float) - 输入的幅值的最小值。
-    - **top_db** (float，可选) - log-mel 谱的最大值(db)。
-    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放，默认是 False。
+    - **norm** (Union[str, float]，可选) - 计算 fbank 矩阵时正则化的种类，默认是'slaney'，也可以 norm=0.5，使用 p-norm 正则化。
+    - **ref_value** (float，可选) - 参照值， 如果小于 1.0，信号的 db 会被提升， 相反 db 会下降， 默认值为 1.0。
+    - **amin** (float，可选) - 输入的幅值的最小值，默认是1e-10。
+    - **top_db** (float，可选) - log-mel 谱的最大值(db)，默认是 None。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
 
 返回
 :::::::::
diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst
index 0efc346e101..c25c73e43a2 100644
--- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst
+++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst
@@ -11,19 +11,19 @@ MelSpectrogram
 ::::::::::::
 
     - **sr** (int，可选) - 采样率，默认 22050。
-    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
     - **hop_length**  (int，可选) - 帧移，默认 512。
     - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
-    - **window**  (str) - 窗函数名，默认'hann'。
-    - **power**  (float) - 幅度谱的指数。
-    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
-    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式.默认值是'reflect'。
-    - **n_mels** (int) - mel bins 的数目。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是2.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是 True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **n_mels** (int，可选) - mel bins 的数目，默认是64。
     - **f_min** (float，可选) - 最小频率(hz)，默认 50.0。
     - **f_max** (float，可选) - 最大频率(hz)，默认为 None。
-    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。
-    - **norm** (Union[str，float]，可选) -计算 fbank 矩阵时正则化的种类，默认是'slaney'，你也可以 norm=0.5，使用 p-norm 正则化。
-    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'。
+    - **htk** (bool，可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放，默认是 False。
+    - **norm** (Union[str, float]，可选) -计算 fbank 矩阵时正则化的种类，默认是'slaney'，也可以 norm=0.5，使用 p-norm 正则化。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
 
 
 返回
diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst
index 31f88cf75e8..2b7856715e2 100644
--- a/docs/api/paddle/audio/features/Spectrogram_cn.rst
+++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst
@@ -10,14 +10,14 @@ Spectrogram
 参数
 ::::::::::::
 
-    - **n_fft** (int) - 离散傅里叶变换中频率窗大小，默认 512。
+    - **n_fft** (int，可选) - 离散傅里叶变换中频率窗大小，默认 512。
     - **hop_length**  (int，可选) - 帧移，默认 512。
     - **win_length**  (int，可选) - 短时 FFT 的窗长，默认为 None。
-    - **window**  (str) - 窗函数名，默认'hann'。
-    - **power**  (float) - 幅度谱的指数。
-    - **center**  (bool) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始。
-    - **pad_mode**  (str) - 如果 center 是 True，选择填充的方式.默认值是'reflect'。
-    - **dtype**  (str) - 输入和窗的数据类型，默认是'float32'。
+    - **window**  (str，可选) - 窗函数名，默认'hann'。
+    - **power**  (float，可选) - 幅度谱的指数，默认是1.0。
+    - **center**  (bool，可选) - 对输入信号填充，如果 True，那么 t 以 t*hop_length 为中心，如果为 False，则 t 以 t*hop_length 开始，默认是True。
+    - **pad_mode**  (str，可选) - 如果 center 是 True，选择填充的方式，默认值是'reflect'。
+    - **dtype**  (str，可选) - 输入和窗的数据类型，默认是'float32'。
 
 
 返回
diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
index 52b0b6d90bb..146c4f86fd9 100644
--- a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
+++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
@@ -12,17 +12,17 @@ compute_fbank_matrix
 
     - **sr** (int) - 采样率。
     - **n_fft** (int) - fft bins 的数目。
-    - **n_mels** (float) - mels bins 的数目。
-    - **f_min** (float) - 最小频率(hz)。
-    - **f_max** (Optional[float]) -最大频率(hz)。
-    - **htk** (bool) -是否使用 htk 缩放。
-    - **norm** (Union[str，float]) -norm 的类型，默认是'slaney'。
-    - **dtype** (str) - 返回矩阵的数据类型，默认'float32'。
+    - **n_mels** (float，可选) - mels bins 的数目，默认是64。
+    - **f_min** (float，可选) - 最小频率(hz)，默认是0.0。
+    - **f_max** (Optional[float]，可选) - 最大频率(hz)，默认是 None。
+    - **htk** (bool，可选) - 是否使用 htk 缩放，默认是 False。
+    - **norm** (Union[str, float]，可选) - norm 的类型，默认是'slaney'。
+    - **dtype** (str，可选) - 返回矩阵的数据类型，默认'float32'。
 
 返回
 :::::::::
 
-``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。
+``paddle.Tensor``，Tensor shape (n_mels， n_fft//2 + 1)。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst
index a1a74847a12..14e6343a6c5 100644
--- a/docs/api/paddle/audio/functional/create_dct_cn.rst
+++ b/docs/api/paddle/audio/functional/create_dct_cn.rst
@@ -12,13 +12,13 @@ create_dct
 
     - **n_mfcc** (float) - mel 倒谱系数数目。
     - **n_mels** (int) - mel 的 fliterbank 数。
-    - **norm** (float) - 正则化类型, 默认值是'ortho'。
-    - **dtype** (str) - 默认'float32'。
+    - **norm** (float，可选) - 正则化类型，默认值是'ortho'。
+    - **dtype** (str，可选) - 默认'float32'。
 
 返回
 :::::::::
 
-``paddle.Tensor``,Tensor shape (n_mels, n_mfcc)。
+``paddle.Tensor``，Tensor 形状 (n_mels, n_mfcc)。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst
index 4d05f8ca82f..83a951cd69b 100644
--- a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst
+++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst
@@ -12,12 +12,12 @@ fft_frequencies
 
     - **sr** (int) - 采样率。
     - **n_fft** (int) - fft bins 的数目。
-    - **dtype** (str) - 默认'float32'。
+    - **dtype** (str，可选) - 默认'float32'。
 
 返回
 :::::::::
 
-``paddle.Tensor``,Tensor shape (n_fft//2 + 1,)。
+``paddle.Tensor``，Tensor 形状 (n_fft//2 + 1,)。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst
index eb7a96db134..3b59263ab77 100644
--- a/docs/api/paddle/audio/functional/get_window_cn.rst
+++ b/docs/api/paddle/audio/functional/get_window_cn.rst
@@ -10,15 +10,15 @@ get_window
 参数
 ::::::::::::
 
-    - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'gaussian', 'general_gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。
+    - **window** (str 或者 Tuple[str，float]) - 窗函数类型，或者(窗参数类型， 窗函数参数)，支持的窗函数类型'hamming'，'hann'，'gaussian'，'general_gaussian'，'exponential'，'triang'，'bohman'，'blackman'，'cosine'，'tukey'，'taylor'。
     - **win_length** (int) - 采样点数。
-    - **fftbins** (bool) -  如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。
-    - **dtype** (str) - 默认'float64'。
+    - **fftbins** (bool，可选) -  如果是 True，给出一个周期性的窗，如果是 False 给出一个对称性的窗，默认是 True。
+    - **dtype** (str，可选) - 默认'float64'。
 
 返回
 :::::::::
 
-``paddle.Tensor``,对应窗表征的 Tensor 。
+``paddle.Tensor``，对应窗表征的 Tensor 。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst
index 097124edbca..6162f4d7f07 100644
--- a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst
+++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst
@@ -11,12 +11,12 @@ hz_to_mel
 ::::::::::::
 
     - **freq** (Tensor, float) - 输入 tensor。
-    - **htk** (bool) - 是否使用 htk 缩放, 默认 False。
+    - **htk** (bool，可选) - 是否使用 htk 缩放，默认 False。
 
 返回
 :::::::::
 
-``paddle.Tensor 或 float``, mels 值。
+``paddle.Tensor 或 float``，mels 值。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst
index fc4a1dd262e..9e7e6517452 100644
--- a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst
+++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst
@@ -10,16 +10,16 @@ mel_frequencies
 参数
 ::::::::::::
 
-    - **n_mels** (int) - 输入 tensor, 默认 64。
-    - **f_min** (float) - 最小频率(hz), 默认 0.0。
-    - **f_max** (float) - 最大频率(hz), 默认 11025.0。
-    - **htk** (bool) - 是否使用 htk 缩放, 默认 False。
-    - **dtype** (str) - 默认'float32'。
+    - **n_mels** (int，可选) - 输入 tensor，默认 64。
+    - **f_min** (float，可选) - 最小频率(hz)，默认 0.0。
+    - **f_max** (float，可选) - 最大频率(hz)，默认 11025.0。
+    - **htk** (bool，可选) - 是否使用 htk 缩放，默认 False。
+    - **dtype** (str，可选) - 默认'float32'。
 
 返回
 :::::::::
 
-``paddle.Tensor``,Tensor shape (n_mels,)。
+``paddle.Tensor``，Tensor 形状 (n_mels,)。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst
index 48a2464fa75..39a2cf61ad0 100644
--- a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst
+++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst
@@ -11,12 +11,12 @@ mel_to_hz
 ::::::::::::
 
     - **mel** (Tensor, float) - 输入 tensor。
-    - **htk** (bool) - 是否使用 htk 缩放, 默认 False。
+    - **htk** (bool，可选) - 是否使用 htk 缩放，默认 False。
 
 返回
 :::::::::
 
-``paddle.Tensor 或 float``, hz 为单位的频率。
+``paddle.Tensor 或 float``，hz 为单位的频率。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst
index 16a4a1d4a6f..e60633271dc 100644
--- a/docs/api/paddle/audio/functional/power_to_db_cn.rst
+++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst
@@ -10,15 +10,15 @@ power_to_db
 参数
 ::::::::::::
 
-    - **spect** (Tensor) - stft 能量谱, 输入 tensor。
-    - **ref_value** (float) - 参照值, 振幅相对于 ref 进行缩放, 默认 1.0。
-    - **amin** (float) - 最小阈值, 默认 1e-10。
-    - **top_db** (float，可选) - 阈值, 默认 80.0。
+    - **spect** (Tensor) - stft 能量谱，输入 tensor。
+    - **ref_value** (float，可选) - 参照值，振幅相对于 ref 进行缩放，默认 1.0。
+    - **amin** (float，可选) - 最小阈值，默认 1e-10。
+    - **top_db** (float，可选) - 阈值，默认 80.0。
 
 返回
 :::::::::
 
-``paddle.Tensor 或 float``, db 单位的能量谱。
+``paddle.Tensor 或 float``，db 单位的能量谱。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/load_cn.rst b/docs/api/paddle/audio/load_cn.rst
index e36c8fc7d5e..bb08dd4583d 100644
--- a/docs/api/paddle/audio/load_cn.rst
+++ b/docs/api/paddle/audio/load_cn.rst
@@ -11,14 +11,14 @@ load
 ::::::::::::
 
     - **filepath** (str 或者 Path) - 输入音频路径。
-    - **frame_offset** (int) - 默认是 0，开始读取音频起始帧。
-    - **num_frames** (int) - 默认是-1，读取音频帧数, -1 表示读取全部帧。
-    - **normalize** (bool) - 默认是 True。如果是 True，返回是音频值被规整到[-1.0, 1.0]，如果是 False，那么就返回原始值。
-    - **channels_first** (bool) - 默认是 True。如果是 True，那么返回的形状是[channel，time]，如果是 False，则是[time, channel]。
+    - **frame_offset** (int，可选) - 默认是 0，开始读取音频起始帧。
+    - **num_frames** (int，可选) - 默认是-1，读取音频帧数，-1 表示读取全部帧。
+    - **normalize** (bool，可选) - 默认是 True。如果是 True，返回是音频值被规整到[-1.0，1.0]，如果是 False，那么就返回原始值。
+    - **channels_first** (bool，可选) - 默认是 True。如果是 True，那么返回的形状是[channel，time]，如果是 False，则是[time，channel]。
 返回
 :::::::::
 
-``Tuple[paddle.Tensor, int]``, 音频数据值, 采样率。
+``Tuple[paddle.Tensor, int]``，音频数据值，采样率。
 
 代码示例
 :::::::::
diff --git a/docs/api/paddle/audio/save_cn.rst b/docs/api/paddle/audio/save_cn.rst
index 5e5ab04bce4..653c8a1bdb3 100644
--- a/docs/api/paddle/audio/save_cn.rst
+++ b/docs/api/paddle/audio/save_cn.rst
@@ -13,9 +13,9 @@ save
     - **filepath** (str 或者 Path) - 保存音频路径。
     - **src** (paddle.Tensor) - 音频数据。
     - **sample_rate** (int) - 采样率。
-    - **channels_first** (bool) - 如果是 True，那么 src 的 Tensor 形状是[channel，time]，如果是 False，则是[time, channel]。
-    - **encoding** (Optional[str]) - 默认是 None，编码信息。
-    - **bits_per_sample** (Optional[int]) - 默认是 16。编码位长。
+    - **channels_first** (bool，可选) - 如果是 True，那么 src 的 Tensor 形状是[channel，time]，如果是 False，则是[time，channel]。
+    - **encoding** (Optional[str]，可选) - 默认是 None，编码信息。
+    - **bits_per_sample** (Optional[int]，可选) - 默认是 16，编码位长。
 返回
 :::::::::
 无