From f09f9c2d4210b1f28424afac036485208522b5d8 Mon Sep 17 00:00:00 2001 From: YangZhou <56786796+SmileGoat@users.noreply.github.com> Date: Thu, 20 Oct 2022 14:23:28 +0800 Subject: [PATCH 1/5] add audio doc (#5299) * add audio doc * fix typo * fix code link && punctuation * fix typo * fix features overivew link * add example * fix mfcc doc * add get_window * update code example * rm example * format * rm code example in cn --- docs/api/paddle/audio/Overview_cn.rst | 41 +++++++++++++++++++ .../audio/features/LogMelSpectrogram_cn.rst | 40 ++++++++++++++++++ docs/api/paddle/audio/features/MFCC_cn.rst | 40 ++++++++++++++++++ .../audio/features/MelSpectrogram_cn.rst | 37 +++++++++++++++++ .../paddle/audio/features/Spectrogram_cn.rst | 30 ++++++++++++++ .../functional/compute_fbank_matrix_cn.rst | 30 ++++++++++++++ .../paddle/audio/functional/create_dct_cn.rst | 26 ++++++++++++ .../audio/functional/fft_frequencies_cn.rst | 25 +++++++++++ .../paddle/audio/functional/get_window_cn.rst | 26 ++++++++++++ .../paddle/audio/functional/hz_to_mel_cn.rst | 24 +++++++++++ .../audio/functional/mel_frequencies_cn.rst | 27 ++++++++++++ .../paddle/audio/functional/mel_to_hz_cn.rst | 24 +++++++++++ .../audio/functional/power_to_db_cn.rst | 26 ++++++++++++ 13 files changed, 396 insertions(+) create mode 100644 docs/api/paddle/audio/Overview_cn.rst create mode 100644 docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst create mode 100644 docs/api/paddle/audio/features/MFCC_cn.rst create mode 100644 docs/api/paddle/audio/features/MelSpectrogram_cn.rst create mode 100644 docs/api/paddle/audio/features/Spectrogram_cn.rst create mode 100644 docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst create mode 100644 docs/api/paddle/audio/functional/create_dct_cn.rst create mode 100644 docs/api/paddle/audio/functional/fft_frequencies_cn.rst create mode 100644 docs/api/paddle/audio/functional/get_window_cn.rst create mode 100644 docs/api/paddle/audio/functional/hz_to_mel_cn.rst create mode 100644 docs/api/paddle/audio/functional/mel_frequencies_cn.rst create mode 100644 docs/api/paddle/audio/functional/mel_to_hz_cn.rst create mode 100644 docs/api/paddle/audio/functional/power_to_db_cn.rst diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst new file mode 100644 index 00000000000..c88e729e3b4 --- /dev/null +++ b/docs/api/paddle/audio/Overview_cn.rst @@ -0,0 +1,41 @@ +.. _cn_overview_callbacks: + +paddle.audio +--------------------- + +paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: + +- :ref:`音频特征相关 API ` +- :ref:`音频处理基础函数相关 API ` + +.. _about_features: + +音频特征相关 API +:::::::::::::::::::: + +.. csv-table:: + :header: "API 名称", "API 功能" + :widths: 10, 30 + + " :ref:`LogMelSpectrogram ` ", "计算语音特征 LogMelSpectrogram" + " :ref:`MelSpectrogram ` ", "计算语音特征 MelSpectrogram" + " :ref:`MFCC ` ", "计算语音特征 MFCC" + " :ref:`Spectrogram ` ", "计算语音特征 Spectrogram" + +.. _about_functional: + +音频处理基础函数相关 API +:::::::::::::::::::: + +.. csv-table:: + :header: "API 名称", "API 功能" + :widths: 10, 30 + + " :ref:`compute_fbank_matrix ` ", "计算 fbank 矩阵" + " :ref:`create_dct ` ", "计算离散余弦变化矩阵" + " :ref:`fft_frequencies ` ", "计算离散傅里叶采样频率" + " :ref:`hz_to_mel` ", "转换 hz 频率为 mel 频率" + " :ref:`mel_to_hz` ", "转换 mel 频率为 hz 频率" + " :ref:`mel_frequencies` ", "计算 mel 频率" + " :ref:`power_to_db` ", "转换能量谱为分贝" + " :ref:`get_window` ", "得到各种窗函数" diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst new file mode 100644 index 00000000000..e7d472e708c --- /dev/null +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -0,0 +1,40 @@ +.. _cn_api_audio_features_LogMelSpectrogram: + +LogMelSpectrogram +------------------------------- + +.. py:class:: paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') + +计算给定信号的 log-mel 谱。 + +参数 +:::::::::::: + + - **sr** (int) - 采样率,默认 22050。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。 + - **n_mels** (int) - mel bins 的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为 None。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放. + - **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化. + - **ref_value** (float) - 参照值,如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0. + - **amin** (float) - 输入的幅值的最小值. + - **top_db** (float,可选) - log-mel 谱的最大值(db). + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'. + + +返回 +::::::::: + +计算``LogMelSpectrogram``的可调用对象. + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.features.layers.LogMelSpectrogram diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst new file mode 100644 index 00000000000..b1da994754f --- /dev/null +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -0,0 +1,40 @@ +.. _cn_api_audio_features_MFCC: + +MFCC +------------------------------- + +.. py:class:: paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') + +计算给定信号的 MFCC。 + +参数 +:::::::::::: + + - **sr** (int,可选) - 采样率,默认 22050。 + - **n_mfcc** (int,可选) - mfcc 的维度,默认 40。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'. + - **n_mels** (int) - mel bins 的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为 None。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。 + - **norm** (Union[str, float], optional) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。 + - **ref_value** (float) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。 + - **amin** (float) - 输入的幅值的最小值。 + - **top_db** (float,可选) - log-mel 谱的最大值(db)。 + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 + +返回 +::::::::: + +计算``MFCC``的可调用对象。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.features.layers.MFCC diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst new file mode 100644 index 00000000000..0efc346e101 --- /dev/null +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -0,0 +1,37 @@ +.. _cn_api_audio_features_MelSpectrogram: + +MelSpectrogram +------------------------------- + +.. py:class:: paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32') + +求得给定信号的 Mel 谱。 + +参数 +:::::::::::: + + - **sr** (int,可选) - 采样率,默认 22050。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。 + - **n_mels** (int) - mel bins 的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为 None。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。 + - **norm** (Union[str,float],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。 + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 + + +返回 +::::::::: + +计算``MelSpectrogram``的可调用对象。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.features.MelSpectrogram diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst new file mode 100644 index 00000000000..31f88cf75e8 --- /dev/null +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -0,0 +1,30 @@ +.. _cn_api_audio_features_Spectrogram: + +Spectrogram +------------------------------- + +.. py:class:: paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32') + +通过给定信号的短时傅里叶变换得到频谱。 + +参数 +:::::::::::: + + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。 + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 + + +返回 +::::::::: + +计算``Spectrogram``的可调用对象. + +代码示例 +::::::::: +COPY-FROM: paddle.audio.features.Spectrogram diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst new file mode 100644 index 00000000000..52b0b6d90bb --- /dev/null +++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst @@ -0,0 +1,30 @@ +.. _cn_api_audio_functional_compute_fbank_matrix: + +compute_fbank_matrix +------------------------------- + +.. py:function:: paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32') + +计算 mel 变换矩阵。 + +参数 +:::::::::::: + + - **sr** (int) - 采样率。 + - **n_fft** (int) - fft bins 的数目。 + - **n_mels** (float) - mels bins 的数目。 + - **f_min** (float) - 最小频率(hz)。 + - **f_max** (Optional[float]) -最大频率(hz)。 + - **htk** (bool) -是否使用 htk 缩放。 + - **norm** (Union[str,float]) -norm 的类型,默认是'slaney'。 + - **dtype** (str) - 返回矩阵的数据类型,默认'float32'。 + +返回 +::::::::: + +``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.compute_fbank_matrix diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst new file mode 100644 index 00000000000..a1a74847a12 --- /dev/null +++ b/docs/api/paddle/audio/functional/create_dct_cn.rst @@ -0,0 +1,26 @@ +.. _cn_api_audio_functional_create_dct: + +create_dct +------------------------------- + +.. py:function:: paddle.audio.functional.create_dct(n_mfcc, n_mels, norm='ortho', dtype='float32') + +计算离散余弦变换矩阵。 + +参数 +:::::::::::: + + - **n_mfcc** (float) - mel 倒谱系数数目。 + - **n_mels** (int) - mel 的 fliterbank 数。 + - **norm** (float) - 正则化类型, 默认值是'ortho'。 + - **dtype** (str) - 默认'float32'。 + +返回 +::::::::: + +``paddle.Tensor``,Tensor shape (n_mels, n_mfcc)。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.create_dct diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst new file mode 100644 index 00000000000..4d05f8ca82f --- /dev/null +++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst @@ -0,0 +1,25 @@ +.. _cn_api_audio_functional_fft_frequencies: + +fft_frequencies +------------------------------- + +.. py:function:: paddle.audio.functional.fft_frequencies(sr, n_fft, dtype='float32') + +计算 fft 频率。 + +参数 +:::::::::::: + + - **sr** (int) - 采样率。 + - **n_fft** (int) - fft bins 的数目。 + - **dtype** (str) - 默认'float32'。 + +返回 +::::::::: + +``paddle.Tensor``,Tensor shape (n_fft//2 + 1,)。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.fft_frequencies diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst new file mode 100644 index 00000000000..365bdb883a6 --- /dev/null +++ b/docs/api/paddle/audio/functional/get_window_cn.rst @@ -0,0 +1,26 @@ +.. _cn_api_audio_functional_get_window: + +get_window +------------------------------- + +.. py:function:: paddle.audio.functional.get_window(window, win_length, fftbins=True, dtype='float64') + +根据参数给出对应长度和类型的窗函数。 + +参数 +:::::::::::: + + - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'kaiser', 'gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。 + - **win_length** (int) - 采样点数。 + - **fftbins** (bool) - 如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。 + - **dtype** (str) - 默认'float64'。 + +返回 +::::::::: + +``paddle.Tensor``,对应窗表征的 Tensor 。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.get_window diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst new file mode 100644 index 00000000000..097124edbca --- /dev/null +++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst @@ -0,0 +1,24 @@ +.. _cn_api_audio_functional_hz_to_mel: + +hz_to_mel +------------------------------- + +.. py:function:: paddle.audio.functional.hz_to_mel(feq, htk=False) + +转换 Hz 为 Mels。 + +参数 +:::::::::::: + + - **freq** (Tensor, float) - 输入 tensor。 + - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 + +返回 +::::::::: + +``paddle.Tensor 或 float``, mels 值。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.hz_to_mel diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst new file mode 100644 index 00000000000..fc4a1dd262e --- /dev/null +++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst @@ -0,0 +1,27 @@ +.. _cn_api_audio_functional_mel_frequencies: + +mel_frequencies +------------------------------- + +.. py:function:: paddle.audio.functional.mel_frequencies(n_mels=64, f_min=0.0, f_max=11025, htk=False, dtype='float32') + +计算 Mels 频率。 + +参数 +:::::::::::: + + - **n_mels** (int) - 输入 tensor, 默认 64。 + - **f_min** (float) - 最小频率(hz), 默认 0.0。 + - **f_max** (float) - 最大频率(hz), 默认 11025.0。 + - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 + - **dtype** (str) - 默认'float32'。 + +返回 +::::::::: + +``paddle.Tensor``,Tensor shape (n_mels,)。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.mel_frequencies diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst new file mode 100644 index 00000000000..48a2464fa75 --- /dev/null +++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst @@ -0,0 +1,24 @@ +.. _cn_api_audio_functional_mel_to_hz: + +mel_to_hz +------------------------------- + +.. py:function:: paddle.audio.functional.mel_to_hz(feq, htk=False) + +转换 Mels 为 Hz。 + +参数 +:::::::::::: + + - **mel** (Tensor, float) - 输入 tensor。 + - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 + +返回 +::::::::: + +``paddle.Tensor 或 float``, hz 为单位的频率。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.mel_to_hz diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst new file mode 100644 index 00000000000..16a4a1d4a6f --- /dev/null +++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst @@ -0,0 +1,26 @@ +.. _cn_api_audio_functional_power_to_db: + +power_to_db +------------------------------- + +.. py:function:: paddle.audio.functional.power_to_db(spect, ref_value=1.0, amin=1e-10, top_db=80.0) + +转换能量谱为分贝单位。 + +参数 +:::::::::::: + + - **spect** (Tensor) - stft 能量谱, 输入 tensor。 + - **ref_value** (float) - 参照值, 振幅相对于 ref 进行缩放, 默认 1.0。 + - **amin** (float) - 最小阈值, 默认 1e-10。 + - **top_db** (float,可选) - 阈值, 默认 80.0。 + +返回 +::::::::: + +``paddle.Tensor 或 float``, db 单位的能量谱。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.functional.power_to_db From 58b2ef37360def81c00b1f3b15936b50ca10db08 Mon Sep 17 00:00:00 2001 From: YangZhou <56786796+SmileGoat@users.noreply.github.com> Date: Tue, 25 Oct 2022 10:15:12 +0800 Subject: [PATCH 2/5] update audio datasets && backend (#5363) * update audio datasets && backend * add overview * format * fix function info * rm seed in TESS * rename some api * fix load * fix return * fix codestyle --- docs/api/paddle/audio/Overview_cn.rst | 31 +++++++++++++++++++ .../audio/backends/get_current_backend_cn.rst | 21 +++++++++++++ docs/api/paddle/audio/backends/info_cn.rst | 22 +++++++++++++ .../backends/list_available_backends_cn.rst | 21 +++++++++++++ docs/api/paddle/audio/backends/load_cn.rst | 26 ++++++++++++++++ docs/api/paddle/audio/backends/save_cn.rst | 26 ++++++++++++++++ .../paddle/audio/backends/set_backend_cn.rst | 22 +++++++++++++ docs/api/paddle/audio/datasets/ESC50_cn.rst | 27 ++++++++++++++++ docs/api/paddle/audio/datasets/TESS_cn.rst | 28 +++++++++++++++++ 9 files changed, 224 insertions(+) create mode 100644 docs/api/paddle/audio/backends/get_current_backend_cn.rst create mode 100644 docs/api/paddle/audio/backends/info_cn.rst create mode 100644 docs/api/paddle/audio/backends/list_available_backends_cn.rst create mode 100644 docs/api/paddle/audio/backends/load_cn.rst create mode 100644 docs/api/paddle/audio/backends/save_cn.rst create mode 100644 docs/api/paddle/audio/backends/set_backend_cn.rst create mode 100644 docs/api/paddle/audio/datasets/ESC50_cn.rst create mode 100644 docs/api/paddle/audio/datasets/TESS_cn.rst diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst index c88e729e3b4..81e66a650ba 100644 --- a/docs/api/paddle/audio/Overview_cn.rst +++ b/docs/api/paddle/audio/Overview_cn.rst @@ -3,10 +3,13 @@ paddle.audio --------------------- + paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: - :ref:`音频特征相关 API ` - :ref:`音频处理基础函数相关 API ` +- :ref:`音频 I/O 相关 API ` +- :ref:`语音数据集相关 API ` .. _about_features: @@ -39,3 +42,31 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: " :ref:`mel_frequencies` ", "计算 mel 频率" " :ref:`power_to_db` ", "转换能量谱为分贝" " :ref:`get_window` ", "得到各种窗函数" + +.. _about_backends: + +音频 I/O 相关 API +:::::::::::::::::::: + +.. csv-table:: + :header: "API 名称", "API 功能" + :widths: 10, 30 + + " :ref:`get_current_backend ` ", "获取现在的语音 I/O 后端" + " :ref:`list_available_backends ` ", "获取可设置得语音 I/O 后端" + " :ref:`set_backend ` ", "设置语音 I/O 后端" + " :ref:`load ` ", "载入音频" + " :ref:`info ` ", "查询音频信息" + " :ref:`save ` ", "保存音频" + +.. _about_datasets: + +音频数据集相关 API +:::::::::::::::::::: + +.. csv-table:: + :header: "API 名称", "API 功能" + :widths: 10, 30 + + " :ref:`TESS ` ", "TESS 数据集" + " :ref:`ESC50 ` ", "ESC50 数据集" diff --git a/docs/api/paddle/audio/backends/get_current_backend_cn.rst b/docs/api/paddle/audio/backends/get_current_backend_cn.rst new file mode 100644 index 00000000000..10cb4e7bebc --- /dev/null +++ b/docs/api/paddle/audio/backends/get_current_backend_cn.rst @@ -0,0 +1,21 @@ +.. _cn_api_audio_backends_get_current_backend: + +get_current_backend +------------------------------- + +.. py:function:: paddle.audio.backends.get_current_backend() + +获取现在的处理语音 I/O 的后端名称。 + +参数 +:::::::::::: + +返回 +::::::::: + +``str``,语音 I/O 的后端名称。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.backends.get_current_backend diff --git a/docs/api/paddle/audio/backends/info_cn.rst b/docs/api/paddle/audio/backends/info_cn.rst new file mode 100644 index 00000000000..05578856483 --- /dev/null +++ b/docs/api/paddle/audio/backends/info_cn.rst @@ -0,0 +1,22 @@ +.. _cn_api_audio_info: + +info +------------------------------- + +.. py:function:: paddle.audio.info(filepath:str) + +获取音频的相关信息,如采用率,通道数等。 + +参数 +:::::::::::: + + - **filepath** (str) - 输入音频路径。 +返回 +::::::::: + +``AudioInfo``, 音频相关信息。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.info diff --git a/docs/api/paddle/audio/backends/list_available_backends_cn.rst b/docs/api/paddle/audio/backends/list_available_backends_cn.rst new file mode 100644 index 00000000000..16ff216a564 --- /dev/null +++ b/docs/api/paddle/audio/backends/list_available_backends_cn.rst @@ -0,0 +1,21 @@ +.. _cn_api_audio_backends_list_available_backends: + +list_available_backends +------------------------------- + +.. py:function:: paddle.audio.backends.list_available_backends() + +获取可用的音频 I/O 后端。 + +参数 +:::::::::::: + +返回 +::::::::: + +``List[str]``, 可用的音频 I/O 后端集合。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.backends.list_available_backends diff --git a/docs/api/paddle/audio/backends/load_cn.rst b/docs/api/paddle/audio/backends/load_cn.rst new file mode 100644 index 00000000000..e36c8fc7d5e --- /dev/null +++ b/docs/api/paddle/audio/backends/load_cn.rst @@ -0,0 +1,26 @@ +.. _cn_api_audio_load: + +load +------------------------------- + +.. py:function:: paddle.audio.load(filepath: Union[str, Path], frame_offset: int = 0, num_frames: int = -1, normalize: bool = True, channels_first: bool = True) + +获取音频数据。 + +参数 +:::::::::::: + + - **filepath** (str 或者 Path) - 输入音频路径。 + - **frame_offset** (int) - 默认是 0,开始读取音频起始帧。 + - **num_frames** (int) - 默认是-1,读取音频帧数, -1 表示读取全部帧。 + - **normalize** (bool) - 默认是 True。如果是 True,返回是音频值被规整到[-1.0, 1.0],如果是 False,那么就返回原始值。 + - **channels_first** (bool) - 默认是 True。如果是 True,那么返回的形状是[channel,time],如果是 False,则是[time, channel]。 +返回 +::::::::: + +``Tuple[paddle.Tensor, int]``, 音频数据值, 采样率。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.load diff --git a/docs/api/paddle/audio/backends/save_cn.rst b/docs/api/paddle/audio/backends/save_cn.rst new file mode 100644 index 00000000000..5e5ab04bce4 --- /dev/null +++ b/docs/api/paddle/audio/backends/save_cn.rst @@ -0,0 +1,26 @@ +.. _cn_api_audio_save: + +save +------------------------------- + +.. py:function:: paddle.audio.save(filepath: str, src: paddle.Tensor, sample_rate: int, channels_first: bool = True, encoding: Optional[str] = None, bits_per_sample: Optional[int] = 16) + +保存音频数据。 + +参数 +:::::::::::: + + - **filepath** (str 或者 Path) - 保存音频路径。 + - **src** (paddle.Tensor) - 音频数据。 + - **sample_rate** (int) - 采样率。 + - **channels_first** (bool) - 如果是 True,那么 src 的 Tensor 形状是[channel,time],如果是 False,则是[time, channel]。 + - **encoding** (Optional[str]) - 默认是 None,编码信息。 + - **bits_per_sample** (Optional[int]) - 默认是 16。编码位长。 +返回 +::::::::: +无 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.save diff --git a/docs/api/paddle/audio/backends/set_backend_cn.rst b/docs/api/paddle/audio/backends/set_backend_cn.rst new file mode 100644 index 00000000000..9c02a40777d --- /dev/null +++ b/docs/api/paddle/audio/backends/set_backend_cn.rst @@ -0,0 +1,22 @@ +.. _cn_api_audio_backends_set_backend: + +set_backend +------------------------------- + +.. py:function:: paddle.audio.backends.set_backend(backend_name: str) + +设置处理语音 I/O 的后端。 + +参数 +:::::::::::: + + - **backend_name** (str) - 语音 I/O 后端名称,现支持‘wave_backend’,如果安装了 paddleaudio >=1.0.2,则也支持‘soundfile’。 + +返回 +::::::::: +无 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.backends.set_backend diff --git a/docs/api/paddle/audio/datasets/ESC50_cn.rst b/docs/api/paddle/audio/datasets/ESC50_cn.rst new file mode 100644 index 00000000000..aae7fcfe315 --- /dev/null +++ b/docs/api/paddle/audio/datasets/ESC50_cn.rst @@ -0,0 +1,27 @@ +.. _cn_api_audio_datasets_ESC50: + +ESC50 +------------------------------- + +.. py:class:: paddle.audio.datasets.ESC50(mode: str = 'train', split: int = 1, feat_type: str = 'raw', archive=None, **kwargs) + + +`ESC50 `_ 数据集的实现。 + +参数 +::::::::: + + - **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。 + - **split** (int) - 默认是 1,指定 dev 的文件夹。 + - **feat_type** (str) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。 + - **archive** (dict) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。 + +返回 +::::::::: + +:ref:`cn_api_io_cn_Dataset`,ESC50 数据集实例。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.datasets.ESC50 diff --git a/docs/api/paddle/audio/datasets/TESS_cn.rst b/docs/api/paddle/audio/datasets/TESS_cn.rst new file mode 100644 index 00000000000..258d390bd48 --- /dev/null +++ b/docs/api/paddle/audio/datasets/TESS_cn.rst @@ -0,0 +1,28 @@ +.. _cn_api_audio_datasets_TESS: + +TESS +------------------------------- + +.. py:class:: paddle.audio.datasets.TESS(mode: str = 'train', n_folds = 5, split = 1, feat_type = 'raw', archive=None, **kwargs) + + +`TESS `_ 数据集的实现。 + +参数 +::::::::: + + - **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。 + - **n_folds** (int) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。 + - **split** (int) - 默认是 1,指定 dev 的文件夹。 + - **feat_type** (str) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。 + - **archive** (dict) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。 + +返回 +::::::::: + +:ref:`cn_api_io_cn_Dataset`,TESS 数据集实例。 + +代码示例 +::::::::: + +COPY-FROM: paddle.audio.datasets.TESS From c84cb9c56b5485c4726169561fa423e94223b1c9 Mon Sep 17 00:00:00 2001 From: YangZhou <56786796+SmileGoat@users.noreply.github.com> Date: Mon, 31 Oct 2022 16:35:58 +0800 Subject: [PATCH 3/5] [audio] add general_gaussian, rm kaiser in get_window doc (#5378) * add general_gaussian in get_window doc * rm kaiser window --- docs/api/paddle/audio/functional/get_window_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst index 365bdb883a6..eb7a96db134 100644 --- a/docs/api/paddle/audio/functional/get_window_cn.rst +++ b/docs/api/paddle/audio/functional/get_window_cn.rst @@ -10,7 +10,7 @@ get_window 参数 :::::::::::: - - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'kaiser', 'gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。 + - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'gaussian', 'general_gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。 - **win_length** (int) - 采样点数。 - **fftbins** (bool) - 如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。 - **dtype** (str) - 默认'float64'。 From 6fcf0fdb27e80bb6f5f6044d5d6870a4d6eea301 Mon Sep 17 00:00:00 2001 From: YangZhou <56786796+SmileGoat@users.noreply.github.com> Date: Thu, 24 Nov 2022 19:00:28 +0800 Subject: [PATCH 4/5] audio backends fix (#5445) --- docs/api/paddle/audio/{backends => }/info_cn.rst | 0 docs/api/paddle/audio/{backends => }/load_cn.rst | 0 docs/api/paddle/audio/{backends => }/save_cn.rst | 0 3 files changed, 0 insertions(+), 0 deletions(-) rename docs/api/paddle/audio/{backends => }/info_cn.rst (100%) rename docs/api/paddle/audio/{backends => }/load_cn.rst (100%) rename docs/api/paddle/audio/{backends => }/save_cn.rst (100%) diff --git a/docs/api/paddle/audio/backends/info_cn.rst b/docs/api/paddle/audio/info_cn.rst similarity index 100% rename from docs/api/paddle/audio/backends/info_cn.rst rename to docs/api/paddle/audio/info_cn.rst diff --git a/docs/api/paddle/audio/backends/load_cn.rst b/docs/api/paddle/audio/load_cn.rst similarity index 100% rename from docs/api/paddle/audio/backends/load_cn.rst rename to docs/api/paddle/audio/load_cn.rst diff --git a/docs/api/paddle/audio/backends/save_cn.rst b/docs/api/paddle/audio/save_cn.rst similarity index 100% rename from docs/api/paddle/audio/backends/save_cn.rst rename to docs/api/paddle/audio/save_cn.rst From 04f448f82cef9a642487d82f3a953f7256cb763e Mon Sep 17 00:00:00 2001 From: YangZhou <56786796+SmileGoat@users.noreply.github.com> Date: Fri, 17 Feb 2023 15:42:14 +0800 Subject: [PATCH 5/5] [audio] fix optional in audio doc (#5609) --------- Co-authored-by: Ligoml <39876205+Ligoml@users.noreply.github.com> --- .../audio/backends/get_current_backend_cn.rst | 2 +- .../backends/list_available_backends_cn.rst | 2 +- .../paddle/audio/backends/set_backend_cn.rst | 2 +- docs/api/paddle/audio/datasets/ESC50_cn.rst | 6 ++-- docs/api/paddle/audio/datasets/TESS_cn.rst | 8 +++--- .../audio/features/LogMelSpectrogram_cn.rst | 28 +++++++++---------- docs/api/paddle/audio/features/MFCC_cn.rst | 24 ++++++++-------- .../audio/features/MelSpectrogram_cn.rst | 18 ++++++------ .../paddle/audio/features/Spectrogram_cn.rst | 12 ++++---- .../functional/compute_fbank_matrix_cn.rst | 14 +++++----- .../paddle/audio/functional/create_dct_cn.rst | 6 ++-- .../audio/functional/fft_frequencies_cn.rst | 4 +-- .../paddle/audio/functional/get_window_cn.rst | 8 +++--- .../paddle/audio/functional/hz_to_mel_cn.rst | 4 +-- .../audio/functional/mel_frequencies_cn.rst | 12 ++++---- .../paddle/audio/functional/mel_to_hz_cn.rst | 4 +-- .../audio/functional/power_to_db_cn.rst | 10 +++---- docs/api/paddle/audio/load_cn.rst | 10 +++---- docs/api/paddle/audio/save_cn.rst | 6 ++-- 19 files changed, 90 insertions(+), 90 deletions(-) diff --git a/docs/api/paddle/audio/backends/get_current_backend_cn.rst b/docs/api/paddle/audio/backends/get_current_backend_cn.rst index 10cb4e7bebc..0cadbca12cd 100644 --- a/docs/api/paddle/audio/backends/get_current_backend_cn.rst +++ b/docs/api/paddle/audio/backends/get_current_backend_cn.rst @@ -13,7 +13,7 @@ get_current_backend 返回 ::::::::: -``str``,语音 I/O 的后端名称。 +``str``,语音 I/O 的后端名称。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/backends/list_available_backends_cn.rst b/docs/api/paddle/audio/backends/list_available_backends_cn.rst index 16ff216a564..9155138a80f 100644 --- a/docs/api/paddle/audio/backends/list_available_backends_cn.rst +++ b/docs/api/paddle/audio/backends/list_available_backends_cn.rst @@ -13,7 +13,7 @@ list_available_backends 返回 ::::::::: -``List[str]``, 可用的音频 I/O 后端集合。 +``List[str]``,可用的音频 I/O 后端集合。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/backends/set_backend_cn.rst b/docs/api/paddle/audio/backends/set_backend_cn.rst index 9c02a40777d..776b6f1197d 100644 --- a/docs/api/paddle/audio/backends/set_backend_cn.rst +++ b/docs/api/paddle/audio/backends/set_backend_cn.rst @@ -10,7 +10,7 @@ set_backend 参数 :::::::::::: - - **backend_name** (str) - 语音 I/O 后端名称,现支持‘wave_backend’,如果安装了 paddleaudio >=1.0.2,则也支持‘soundfile’。 + - **backend_name** (str) - 语音 I/O 后端名称,现支持 ``'wave_backend'`` ,如果安装了 paddleaudio >=1.0.2,则也支持 ``'soundfile'`` 。 返回 ::::::::: diff --git a/docs/api/paddle/audio/datasets/ESC50_cn.rst b/docs/api/paddle/audio/datasets/ESC50_cn.rst index aae7fcfe315..c9d40d2c6cd 100644 --- a/docs/api/paddle/audio/datasets/ESC50_cn.rst +++ b/docs/api/paddle/audio/datasets/ESC50_cn.rst @@ -12,9 +12,9 @@ ESC50 ::::::::: - **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。 - - **split** (int) - 默认是 1,指定 dev 的文件夹。 - - **feat_type** (str) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。 - - **archive** (dict) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。 + - **split** (int,可选) - 默认是 1,指定 dev 的文件夹。 + - **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。 + - **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。 返回 ::::::::: diff --git a/docs/api/paddle/audio/datasets/TESS_cn.rst b/docs/api/paddle/audio/datasets/TESS_cn.rst index 258d390bd48..7a29ef4bac0 100644 --- a/docs/api/paddle/audio/datasets/TESS_cn.rst +++ b/docs/api/paddle/audio/datasets/TESS_cn.rst @@ -12,10 +12,10 @@ TESS ::::::::: - **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。 - - **n_folds** (int) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。 - - **split** (int) - 默认是 1,指定 dev 的文件夹。 - - **feat_type** (str) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。 - - **archive** (dict) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。 + - **n_folds** (int,可选) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。 + - **split** (int,可选) - 默认是 1,指定 dev 的文件夹。 + - **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。 + - **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。 返回 ::::::::: diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index e7d472e708c..b73998c57bc 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -10,29 +10,29 @@ LogMelSpectrogram 参数 :::::::::::: - - **sr** (int) - 采样率,默认 22050。 - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **sr** (int,可选) - 采样率,默认 22050。 + - **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。 - **hop_length** (int,可选) - 帧移,默认 512。 - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - - **window** (str) - 窗函数名,默认'hann'。 - - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 - - **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。 - - **n_mels** (int) - mel bins 的数目。 + - **window** (str,可选) - 窗函数名,默认'hann'。 + - **power** (float,可选) - 幅度谱的指数,默认是2.0。 + - **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。 + - **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。 + - **n_mels** (int,可选) - mel bins 的数目,默认是64。 - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 - **f_max** (float,可选) - 最大频率(hz),默认为 None。 - - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放. - - **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化. - - **ref_value** (float) - 参照值,如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0. - - **amin** (float) - 输入的幅值的最小值. - - **top_db** (float,可选) - log-mel 谱的最大值(db). - - **dtype** (str) - 输入和窗的数据类型,默认是'float32'. + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。 + - **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。 + - **ref_value** (float,可选) - 参照值,如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0。 + - **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10。 + - **top_db** (float,可选) - log-mel 谱的最大值(db),默认是None。 + - **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。 返回 ::::::::: -计算``LogMelSpectrogram``的可调用对象. +计算``LogMelSpectrogram``的可调用对象。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index b1da994754f..2c7ef2ad4a2 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -12,22 +12,22 @@ MFCC - **sr** (int,可选) - 采样率,默认 22050。 - **n_mfcc** (int,可选) - mfcc 的维度,默认 40。 - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。 - **hop_length** (int,可选) - 帧移,默认 512。 - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - - **window** (str) - 窗函数名,默认'hann'。 - - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 - - **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'. - - **n_mels** (int) - mel bins 的数目。 + - **window** (str,可选) - 窗函数名,默认'hann'。 + - **power** (float,可选) - 幅度谱的指数,默认是2.0。 + - **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。 + - **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。 + - **n_mels** (int,可选) - mel bins 的数目,默认是64。 - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 - **f_max** (float,可选) - 最大频率(hz),默认为 None。 - - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。 - - **norm** (Union[str, float], optional) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。 - - **ref_value** (float) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。 - - **amin** (float) - 输入的幅值的最小值。 - - **top_db** (float,可选) - log-mel 谱的最大值(db)。 - - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。 + - **norm** (Union[str, float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。 + - **ref_value** (float,可选) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。 + - **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10。 + - **top_db** (float,可选) - log-mel 谱的最大值(db),默认是 None。 + - **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。 返回 ::::::::: diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index 0efc346e101..c25c73e43a2 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -11,19 +11,19 @@ MelSpectrogram :::::::::::: - **sr** (int,可选) - 采样率,默认 22050。 - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。 - **hop_length** (int,可选) - 帧移,默认 512。 - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - - **window** (str) - 窗函数名,默认'hann'。 - - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 - - **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。 - - **n_mels** (int) - mel bins 的数目。 + - **window** (str,可选) - 窗函数名,默认'hann'。 + - **power** (float,可选) - 幅度谱的指数,默认是2.0。 + - **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。 + - **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。 + - **n_mels** (int,可选) - mel bins 的数目,默认是64。 - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 - **f_max** (float,可选) - 最大频率(hz),默认为 None。 - - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。 - - **norm** (Union[str,float],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。 - - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。 + - **norm** (Union[str, float],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。 + - **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。 返回 diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst index 31f88cf75e8..2b7856715e2 100644 --- a/docs/api/paddle/audio/features/Spectrogram_cn.rst +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -10,14 +10,14 @@ Spectrogram 参数 :::::::::::: - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。 - **hop_length** (int,可选) - 帧移,默认 512。 - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - - **window** (str) - 窗函数名,默认'hann'。 - - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 - - **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。 - - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 + - **window** (str,可选) - 窗函数名,默认'hann'。 + - **power** (float,可选) - 幅度谱的指数,默认是1.0。 + - **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是True。 + - **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。 + - **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。 返回 diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst index 52b0b6d90bb..146c4f86fd9 100644 --- a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst +++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst @@ -12,17 +12,17 @@ compute_fbank_matrix - **sr** (int) - 采样率。 - **n_fft** (int) - fft bins 的数目。 - - **n_mels** (float) - mels bins 的数目。 - - **f_min** (float) - 最小频率(hz)。 - - **f_max** (Optional[float]) -最大频率(hz)。 - - **htk** (bool) -是否使用 htk 缩放。 - - **norm** (Union[str,float]) -norm 的类型,默认是'slaney'。 - - **dtype** (str) - 返回矩阵的数据类型,默认'float32'。 + - **n_mels** (float,可选) - mels bins 的数目,默认是64。 + - **f_min** (float,可选) - 最小频率(hz),默认是0.0。 + - **f_max** (Optional[float],可选) - 最大频率(hz),默认是 None。 + - **htk** (bool,可选) - 是否使用 htk 缩放,默认是 False。 + - **norm** (Union[str, float],可选) - norm 的类型,默认是'slaney'。 + - **dtype** (str,可选) - 返回矩阵的数据类型,默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。 +``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst index a1a74847a12..14e6343a6c5 100644 --- a/docs/api/paddle/audio/functional/create_dct_cn.rst +++ b/docs/api/paddle/audio/functional/create_dct_cn.rst @@ -12,13 +12,13 @@ create_dct - **n_mfcc** (float) - mel 倒谱系数数目。 - **n_mels** (int) - mel 的 fliterbank 数。 - - **norm** (float) - 正则化类型, 默认值是'ortho'。 - - **dtype** (str) - 默认'float32'。 + - **norm** (float,可选) - 正则化类型,默认值是'ortho'。 + - **dtype** (str,可选) - 默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_mels, n_mfcc)。 +``paddle.Tensor``,Tensor 形状 (n_mels, n_mfcc)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst index 4d05f8ca82f..83a951cd69b 100644 --- a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst @@ -12,12 +12,12 @@ fft_frequencies - **sr** (int) - 采样率。 - **n_fft** (int) - fft bins 的数目。 - - **dtype** (str) - 默认'float32'。 + - **dtype** (str,可选) - 默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_fft//2 + 1,)。 +``paddle.Tensor``,Tensor 形状 (n_fft//2 + 1,)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst index eb7a96db134..3b59263ab77 100644 --- a/docs/api/paddle/audio/functional/get_window_cn.rst +++ b/docs/api/paddle/audio/functional/get_window_cn.rst @@ -10,15 +10,15 @@ get_window 参数 :::::::::::: - - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'gaussian', 'general_gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。 + - **window** (str 或者 Tuple[str,float]) - 窗函数类型,或者(窗参数类型, 窗函数参数),支持的窗函数类型'hamming','hann','gaussian','general_gaussian','exponential','triang','bohman','blackman','cosine','tukey','taylor'。 - **win_length** (int) - 采样点数。 - - **fftbins** (bool) - 如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。 - - **dtype** (str) - 默认'float64'。 + - **fftbins** (bool,可选) - 如果是 True,给出一个周期性的窗,如果是 False 给出一个对称性的窗,默认是 True。 + - **dtype** (str,可选) - 默认'float64'。 返回 ::::::::: -``paddle.Tensor``,对应窗表征的 Tensor 。 +``paddle.Tensor``,对应窗表征的 Tensor 。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst index 097124edbca..6162f4d7f07 100644 --- a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst +++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst @@ -11,12 +11,12 @@ hz_to_mel :::::::::::: - **freq** (Tensor, float) - 输入 tensor。 - - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 + - **htk** (bool,可选) - 是否使用 htk 缩放,默认 False。 返回 ::::::::: -``paddle.Tensor 或 float``, mels 值。 +``paddle.Tensor 或 float``,mels 值。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst index fc4a1dd262e..9e7e6517452 100644 --- a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst @@ -10,16 +10,16 @@ mel_frequencies 参数 :::::::::::: - - **n_mels** (int) - 输入 tensor, 默认 64。 - - **f_min** (float) - 最小频率(hz), 默认 0.0。 - - **f_max** (float) - 最大频率(hz), 默认 11025.0。 - - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 - - **dtype** (str) - 默认'float32'。 + - **n_mels** (int,可选) - 输入 tensor,默认 64。 + - **f_min** (float,可选) - 最小频率(hz),默认 0.0。 + - **f_max** (float,可选) - 最大频率(hz),默认 11025.0。 + - **htk** (bool,可选) - 是否使用 htk 缩放,默认 False。 + - **dtype** (str,可选) - 默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_mels,)。 +``paddle.Tensor``,Tensor 形状 (n_mels,)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst index 48a2464fa75..39a2cf61ad0 100644 --- a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst +++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst @@ -11,12 +11,12 @@ mel_to_hz :::::::::::: - **mel** (Tensor, float) - 输入 tensor。 - - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 + - **htk** (bool,可选) - 是否使用 htk 缩放,默认 False。 返回 ::::::::: -``paddle.Tensor 或 float``, hz 为单位的频率。 +``paddle.Tensor 或 float``,hz 为单位的频率。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst index 16a4a1d4a6f..e60633271dc 100644 --- a/docs/api/paddle/audio/functional/power_to_db_cn.rst +++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst @@ -10,15 +10,15 @@ power_to_db 参数 :::::::::::: - - **spect** (Tensor) - stft 能量谱, 输入 tensor。 - - **ref_value** (float) - 参照值, 振幅相对于 ref 进行缩放, 默认 1.0。 - - **amin** (float) - 最小阈值, 默认 1e-10。 - - **top_db** (float,可选) - 阈值, 默认 80.0。 + - **spect** (Tensor) - stft 能量谱,输入 tensor。 + - **ref_value** (float,可选) - 参照值,振幅相对于 ref 进行缩放,默认 1.0。 + - **amin** (float,可选) - 最小阈值,默认 1e-10。 + - **top_db** (float,可选) - 阈值,默认 80.0。 返回 ::::::::: -``paddle.Tensor 或 float``, db 单位的能量谱。 +``paddle.Tensor 或 float``,db 单位的能量谱。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/load_cn.rst b/docs/api/paddle/audio/load_cn.rst index e36c8fc7d5e..bb08dd4583d 100644 --- a/docs/api/paddle/audio/load_cn.rst +++ b/docs/api/paddle/audio/load_cn.rst @@ -11,14 +11,14 @@ load :::::::::::: - **filepath** (str 或者 Path) - 输入音频路径。 - - **frame_offset** (int) - 默认是 0,开始读取音频起始帧。 - - **num_frames** (int) - 默认是-1,读取音频帧数, -1 表示读取全部帧。 - - **normalize** (bool) - 默认是 True。如果是 True,返回是音频值被规整到[-1.0, 1.0],如果是 False,那么就返回原始值。 - - **channels_first** (bool) - 默认是 True。如果是 True,那么返回的形状是[channel,time],如果是 False,则是[time, channel]。 + - **frame_offset** (int,可选) - 默认是 0,开始读取音频起始帧。 + - **num_frames** (int,可选) - 默认是-1,读取音频帧数,-1 表示读取全部帧。 + - **normalize** (bool,可选) - 默认是 True。如果是 True,返回是音频值被规整到[-1.0,1.0],如果是 False,那么就返回原始值。 + - **channels_first** (bool,可选) - 默认是 True。如果是 True,那么返回的形状是[channel,time],如果是 False,则是[time,channel]。 返回 ::::::::: -``Tuple[paddle.Tensor, int]``, 音频数据值, 采样率。 +``Tuple[paddle.Tensor, int]``,音频数据值,采样率。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/save_cn.rst b/docs/api/paddle/audio/save_cn.rst index 5e5ab04bce4..653c8a1bdb3 100644 --- a/docs/api/paddle/audio/save_cn.rst +++ b/docs/api/paddle/audio/save_cn.rst @@ -13,9 +13,9 @@ save - **filepath** (str 或者 Path) - 保存音频路径。 - **src** (paddle.Tensor) - 音频数据。 - **sample_rate** (int) - 采样率。 - - **channels_first** (bool) - 如果是 True,那么 src 的 Tensor 形状是[channel,time],如果是 False,则是[time, channel]。 - - **encoding** (Optional[str]) - 默认是 None,编码信息。 - - **bits_per_sample** (Optional[int]) - 默认是 16。编码位长。 + - **channels_first** (bool,可选) - 如果是 True,那么 src 的 Tensor 形状是[channel,time],如果是 False,则是[time,channel]。 + - **encoding** (Optional[str],可选) - 默认是 None,编码信息。 + - **bits_per_sample** (Optional[int],可选) - 默认是 16,编码位长。 返回 ::::::::: 无