From 9a75a1c36bea9b1a35faf71b20ed3810e9c9425f Mon Sep 17 00:00:00 2001 From: YangZhou Date: Thu, 22 Sep 2022 20:40:11 +0800 Subject: [PATCH 01/12] add audio doc --- docs/api/paddle/audio/Overview_cn.rst | 42 +++++++++++++++++++ .../audio/features/LogMelSpectrogram_cn.rst | 40 ++++++++++++++++++ docs/api/paddle/audio/features/MFCC_cn.rst | 40 ++++++++++++++++++ .../audio/features/MelSpectrogram_cn.rst | 37 ++++++++++++++++ .../paddle/audio/features/Spectrogram_cn.rst | 31 ++++++++++++++ .../functional/compute_fbank_matrix_cn.rst | 30 +++++++++++++ .../paddle/audio/functional/create_dct_cn.rst | 26 ++++++++++++ .../audio/functional/fft_frequencies_cn.rst | 25 +++++++++++ .../paddle/audio/functional/hz_to_mel_cn.rst | 24 +++++++++++ .../audio/functional/mel_frequencies_cn.rst | 27 ++++++++++++ .../paddle/audio/functional/mel_to_hz_cn.rst | 24 +++++++++++ .../audio/functional/power_to_db_cn.rst | 26 ++++++++++++ 12 files changed, 372 insertions(+) create mode 100644 docs/api/paddle/audio/Overview_cn.rst create mode 100644 docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst create mode 100644 docs/api/paddle/audio/features/MFCC_cn.rst create mode 100644 docs/api/paddle/audio/features/MelSpectrogram_cn.rst create mode 100644 docs/api/paddle/audio/features/Spectrogram_cn.rst create mode 100644 docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst create mode 100644 docs/api/paddle/audio/functional/create_dct_cn.rst create mode 100644 docs/api/paddle/audio/functional/fft_frequencies_cn.rst create mode 100644 docs/api/paddle/audio/functional/hz_to_mel_cn.rst create mode 100644 docs/api/paddle/audio/functional/mel_frequencies_cn.rst create mode 100644 docs/api/paddle/audio/functional/mel_to_hz_cn.rst create mode 100644 docs/api/paddle/audio/functional/power_to_db_cn.rst diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst new file mode 100644 index 00000000000..9c8ff8a7d70 --- /dev/null +++ b/docs/api/paddle/audio/Overview_cn.rst @@ -0,0 +1,42 @@ +.. _cn_overview_callbacks: + +paddle.audio +--------------------- + +paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: + +- :ref:`音频特征相关 API ` +- :ref:`音频处理基础函数相关 API ` + +.. _about_features: + +音频特征相关 API +:::::::::::::::::::: + +.. csv-table:: + :header: "API 名称", "API 功能" + :widths: 10, 30 + + " :ref:`LogMelSpectrogram` ", "计算语音特征LogMelSpectrogram" + " :ref:`MelSpectrogram ` ", "计算语音特征MelSpectrogram" + " :ref:`MFCC ` ", "计算语音特征Spectrogram" + +.. _about_functional: + +音频处理基础函数相关 API +:::::::::::::::::::: + +.. csv-table:: + :header: "API 名称", "API 功能" + :widths: 10, 30 + + " :ref:`compute_fbank_matrix ` ", "计算fbank矩阵" + " :ref:`create_dct ` ", "计算离散余弦变化矩阵" + " :ref:`fft_frequencies ` ", "计算离散傅里叶采样频率" + " :ref:`hz_to_mel` ", "转换hz频率为mel频率" + " :ref:`mel_to_hz` ", "转换mel频率为hz频率" + " :ref:`mel_frequencies` ", "计算mel频率" + " :ref:`power_to_db` ", "转换能量谱为分贝" + " :ref:`get_window Date: Thu, 22 Sep 2022 21:05:00 +0800 Subject: [PATCH 02/12] fix typo --- docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst | 2 +- docs/api/paddle/audio/features/MFCC_cn.rst | 2 +- docs/api/paddle/audio/features/MelSpectrogram_cn.rst | 2 +- 3 files changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index 64a5e80acc3..c4309dc5f75 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -21,7 +21,7 @@ LogMelSpectrogram - **n_mels** (int) - mel bins的数目. - **f_min** (float, optional) - 最小频率(hz),默认50.0. - **f_max** (float, optional) - 最大频率(hz),默认为None. - - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式. + - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式缩放. - **norm** (Union[str, float], optional) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. - **ref_value** (float) - 参照值,如果小于1.0, 信号的db会被提升,相反db会下降,默认值为1.0. - **amin** (float) - 输入的幅值的最小值. diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index f5f8c86d245..186e21c144f 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -22,7 +22,7 @@ MFCC - **n_mels** (int) - mel bins的数目. - **f_min** (float, optional) - 最小频率(hz),默认50.0. - **f_max** (float, optional) - 最大频率(hz),默认为None. - - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式. + - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式缩放. - **norm** (Union[str, float], optional) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. - **ref_value** (float) - 参照值,如果小于1.0, 信号的db会被提升,相反db会下降,默认值为1.0. - **amin** (float) - 输入的幅值的最小值. diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index 65ef3d7b94d..c2b897c9369 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -21,7 +21,7 @@ MelSpectrogram - **n_mels** (int) - mel bins的数目. - **f_min** (float, optional) - 最小频率(hz),默认50.0. - **f_max** (float, optional) - 最大频率(hz),默认为None. - - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式. + - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式缩放. - **norm** (Union[str, float], optional) -计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. - **dtype** ('float32') - 输入和窗的数据类型,默认是'float32'. From ee6cddd1b9955f6a5b55e0cf80e93cb197777044 Mon Sep 17 00:00:00 2001 From: YangZhou Date: Fri, 23 Sep 2022 17:26:07 +0800 Subject: [PATCH 03/12] fix code link && punctuation --- docs/api/paddle/audio/Overview_cn.rst | 10 ++--- .../audio/features/LogMelSpectrogram_cn.rst | 36 ++++++++-------- docs/api/paddle/audio/features/MFCC_cn.rst | 42 +++++++++---------- .../audio/features/MelSpectrogram_cn.rst | 32 +++++++------- .../paddle/audio/features/Spectrogram_cn.rst | 18 ++++---- .../functional/compute_fbank_matrix_cn.rst | 22 +++++----- .../paddle/audio/functional/create_dct_cn.rst | 14 +++---- .../audio/functional/fft_frequencies_cn.rst | 12 +++--- .../paddle/audio/functional/hz_to_mel_cn.rst | 10 ++--- .../audio/functional/mel_frequencies_cn.rst | 16 +++---- .../paddle/audio/functional/mel_to_hz_cn.rst | 10 ++--- .../audio/functional/power_to_db_cn.rst | 14 +++---- 12 files changed, 118 insertions(+), 118 deletions(-) diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst index 9c8ff8a7d70..4bc1ab2629d 100644 --- a/docs/api/paddle/audio/Overview_cn.rst +++ b/docs/api/paddle/audio/Overview_cn.rst @@ -17,10 +17,10 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: :header: "API 名称", "API 功能" :widths: 10, 30 - " :ref:`LogMelSpectrogram` ", "计算语音特征LogMelSpectrogram" - " :ref:`MelSpectrogram ` ", "计算语音特征MelSpectrogram" - " :ref:`MFCC ` ", "计算语音特征Spectrogram" + " :ref:`LogMelSpectrogram ` ", "计算语音特征LogMelSpectrogram" + " :ref:`MelSpectrogram ` ", "计算语音特征MelSpectrogram" + " :ref:`MFCC ` ", "计算语音特征Spectrogram" .. _about_functional: @@ -38,5 +38,5 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: " :ref:`mel_to_hz` ", "转换mel频率为hz频率" " :ref:`mel_frequencies` ", "计算mel频率" " :ref:`power_to_db` ", "转换能量谱为分贝" - " :ref:`get_window` ", "得到各种窗函数" diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index c4309dc5f75..ee668e524df 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -3,30 +3,30 @@ LogMelSpectrogram ------------------------------- -.. py:class::paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') +.. py:class:: paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') -计算给定信号的log-mel谱. +计算给定信号的log-mel谱。 参数 :::::::::::: - - **sr** (int, optional) - 采样率,默认22050. - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512. - - **hop_length** (Options[int]) - 帧移,默认512. - - **win_length** (Options[int]) - 短时FFT的窗长,默认为None. - - **window** (str) - 窗函数名,默认'hann'. - - **power** (float) - 幅度谱的指数. - - **center** (bool) - 对输入信号填充,如果True, 那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始. - - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'. - - **n_mels** (int) - mel bins的数目. - - **f_min** (float, optional) - 最小频率(hz),默认50.0. - - **f_max** (float, optional) - 最大频率(hz),默认为None. - - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式缩放. - - **norm** (Union[str, float], optional) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. - - **ref_value** (float) - 参照值,如果小于1.0, 信号的db会被提升,相反db会下降,默认值为1.0. + - **sr** (int) - 采样率,默认22050。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 + - **hop_length** (int,可选) - 帧移,默认512。 + - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 + - **pad_mode** (str) - 如果center是True,选择填充的方式,默认值是'reflect'。 + - **n_mels** (int) - mel bins的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为None。 + - **htk** (bool,可选) - 在计算fbank矩阵时是否用在HTK公式缩放. + - **norm** (Union[str,float],可选) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. + - **ref_value** (float) - 参照值,如果小于1.0,信号的db会被提升,相反db会下降,默认值为1.0. - **amin** (float) - 输入的幅值的最小值. - - **top_db** (Optional[float]) - log-mel谱的最大值(db). - - **dtype** ('float32') - 输入和窗的数据类型,默认是'float32'. + - **top_db** (float,可选) - log-mel谱的最大值(db). + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'. 返回 diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index 186e21c144f..71123c2f4fc 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -3,36 +3,36 @@ MFCC ------------------------------- -.. py:class::paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') +.. py:class:: paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') -计算给定信号的MFCC. +计算给定信号的MFCC。 参数 :::::::::::: - - **sr** (int, optional) - 采样率,默认22050. - - **n_mfcc** (int, optional) - mfcc的维度,默认40. - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512. - - **hop_length** (Options[int]) - 帧移,默认512. - - **win_length** (Options[int]) - 短时FFT的窗长,默认为None. - - **window** (str) - 窗函数名,默认'hann'. - - **power** (float) - 幅度谱的指数. - - **center** (bool) - 对输入信号填充,如果True, 那么t以t*hop_length为中心,如果为False,则 - - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'. - - **n_mels** (int) - mel bins的数目. - - **f_min** (float, optional) - 最小频率(hz),默认50.0. - - **f_max** (float, optional) - 最大频率(hz),默认为None. - - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式缩放. - - **norm** (Union[str, float], optional) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. - - **ref_value** (float) - 参照值,如果小于1.0, 信号的db会被提升,相反db会下降,默认值为1.0. - - **amin** (float) - 输入的幅值的最小值. - - **top_db** (Optional[float]) - log-mel谱的最大值(db). - - **dtype** ('float32') - 输入和窗的数据类型,默认是'float32'. + - **sr** (int,可选) - 采样率,默认22050。 + - **n_mfcc** (int,可选) - mfcc的维度,默认40。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 + - **hop_length** (int,可选) - 帧移,默认512。 + - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 + - **pad_mode** (str) - 如果center是True,选择填充的方式,默认值是'reflect'. + - **n_mels** (int) - mel bins的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为None。 + - **htk** (bool,可选) - 在计算fbank矩阵时是否用在HTK公式缩放。 + - **norm** (Union[str, float], optional) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化。 + - **ref_value** (float) - 参照值, 如果小于1.0,信号的db会被提升, 相反db会下降, 默认值为1.0。 + - **amin** (float) - 输入的幅值的最小值。 + - **top_db** (float,可选) - log-mel谱的最大值(db)。 + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 返回 ::::::::: -计算``MFCC``的可调用对象. +计算``MFCC``的可调用对象。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index c2b897c9369..2ef464eadd8 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -5,31 +5,31 @@ MelSpectrogram .. py:class::paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32') -求得给定信号的Mel谱. +求得给定信号的Mel谱。 参数 :::::::::::: - - **sr** (int, optional) - 采样率,默认22050. - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512. - - **hop_length** (Options[int]) - 帧移,默认512. - - **win_length** (Options[int]) - 短时FFT的窗长,默认为None. - - **window** (str) - 窗函数名,默认'hann'. - - **power** (float) - 幅度谱的指数. - - **center** (bool) - 对输入信号填充,如果True, 那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始. - - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'. - - **n_mels** (int) - mel bins的数目. - - **f_min** (float, optional) - 最小频率(hz),默认50.0. - - **f_max** (float, optional) - 最大频率(hz),默认为None. - - **htk** (bool, optional) - 在计算fbank矩阵时是否用在HTK公式缩放. - - **norm** (Union[str, float], optional) -计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. - - **dtype** ('float32') - 输入和窗的数据类型,默认是'float32'. + - **sr** (int,可选) - 采样率,默认22050。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 + - **hop_length** (int,可选) - 帧移,默认512。 + - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 + - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'。 + - **n_mels** (int) - mel bins的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为None。 + - **htk** (bool,可选) - 在计算fbank矩阵时是否用在HTK公式缩放。 + - **norm** (Union[str,float],可选) -计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化。 + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 返回 ::::::::: -计算``MelSpectrogram``的可调用对象. +计算``MelSpectrogram``的可调用对象。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst index 151c18ecc36..0066a79b16e 100644 --- a/docs/api/paddle/audio/features/Spectrogram_cn.rst +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -5,19 +5,19 @@ Spectrogram .. py:class::paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32') -通过给定信号的短时傅里叶变换得到频谱. +通过给定信号的短时傅里叶变换得到频谱。 参数 :::::::::::: - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512. - - **hop_length** (Options[int]) - 帧移,默认512. - - **win_length** (Options[int]) - 短时FFT的窗长,默认为None. - - **window** (str) - 窗函数名,默认'hann'. - - **power** (float) - 幅度谱的指数. - - **center** (bool) - 对输入信号填充,如果True, 那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始. - - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'. - - **dtype** ('float32') - 输入和窗的数据类型,默认是'float32'. + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 + - **hop_length** (int,可选) - 帧移,默认512。 + - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **window** (str) - 窗函数名,默认'hann'。 + - **power** (float) - 幅度谱的指数。 + - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 + - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'。 + - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 返回 diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst index 306d39eab85..9331996073c 100644 --- a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst +++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst @@ -3,26 +3,26 @@ compute_fbank_matrix ------------------------------- -.. py:function::paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32') +.. py:function:: paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32') -计算mel变换矩阵. +计算mel变换矩阵。 参数 :::::::::::: - - **sr** (int) - 采样率. - - **n_fft** (int) - fft bins的数目. - - **n_mels** (float) - mels bins的数目. - - **f_min** (float) - 最小频率(hz). - - **f_max** (Optional[float]) -最大频率(hz). - - **htk** (bool) -是否使用htk缩放. - - **norm** (Union[str, float]) -norm的类型,默认是'slaney'. - - **dtype** (str) - 返回矩阵的数据类型,默认'float32'. + - **sr** (int) - 采样率。 + - **n_fft** (int) - fft bins的数目。 + - **n_mels** (float) - mels bins的数目。 + - **f_min** (float) - 最小频率(hz)。 + - **f_max** (Optional[float]) -最大频率(hz)。 + - **htk** (bool) -是否使用htk缩放。 + - **norm** (Union[str,float]) -norm的类型,默认是'slaney'。 + - **dtype** (str) - 返回矩阵的数据类型,默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1). +``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst index 7443abade96..2ed94bc58fe 100644 --- a/docs/api/paddle/audio/functional/create_dct_cn.rst +++ b/docs/api/paddle/audio/functional/create_dct_cn.rst @@ -3,22 +3,22 @@ create_dct ------------------------------- -.. py:function::paddle.audio.functional.create_dct(n_mfcc, n_mels, norm='ortho', dtype='float32') +.. py:function:: paddle.audio.functional.create_dct(n_mfcc, n_mels, norm='ortho', dtype='float32') -计算离散余弦变换矩阵. +计算离散余弦变换矩阵。 参数 :::::::::::: - - **n_mfcc** (float) - mel倒谱系数数目. - - **n_mels** (int) - mel的fliterbank数. - - **norm** (float) - 正则化类型,默认值是'ortho'. - - **dtype** (str) - 默认'float32'. + - **n_mfcc** (float) - mel倒谱系数数目。 + - **n_mels** (int) - mel的fliterbank数。 + - **norm** (float) - 正则化类型, 默认值是'ortho'。 + - **dtype** (str) - 默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_mels, n_mfcc). +``paddle.Tensor``,Tensor shape (n_mels, n_mfcc)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst index 1717aa03a16..88fb2ef958d 100644 --- a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst @@ -3,21 +3,21 @@ fft_frequencies ------------------------------- -.. py:function::paddle.audio.functional.fft_frequencies(sr, n_fft, dtype='float32') +.. py:function:: paddle.audio.functional.fft_frequencies(sr, n_fft, dtype='float32') -计算fft频率. +计算fft频率。 参数 :::::::::::: - - **sr** (int) - 采样率. - - **n_fft** (int) - fft bins的数目. - - **dtype** (str) - 默认'float32'. + - **sr** (int) - 采样率。 + - **n_fft** (int) - fft bins的数目。 + - **dtype** (str) - 默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_fft//2 + 1,). +``paddle.Tensor``,Tensor shape (n_fft//2 + 1,)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst index 8e86b9b2ce5..dbcaaeea943 100644 --- a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst +++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst @@ -3,20 +3,20 @@ hz_to_mel ------------------------------- -.. py:function::paddle.audio.functional.hz_to_mel(feq, htk=False) +.. py:function:: paddle.audio.functional.hz_to_mel(feq, htk=False) -转换Hz为Mels. +转换Hz为Mels。 参数 :::::::::::: - - **freq** (Tensor, float) - 输入tensor. - - **htk** (bool) - 是否使用htk缩放,默认False. + - **freq** (Tensor, float) - 输入tensor。 + - **htk** (bool) - 是否使用htk缩放, 默认False。 返回 ::::::::: -``paddle.Tensor或float``,mels值. +``paddle.Tensor或float``, mels值。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst index 1539170e4f7..bca8e64d539 100644 --- a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst @@ -3,23 +3,23 @@ mel_frequencies ------------------------------- -.. py:function::paddle.audio.functional.mel_frequencies(n_mels=64, f_min=0.0, f_max=11025, htk=False, dtype='float32') +.. py:function:: paddle.audio.functional.mel_frequencies(n_mels=64, f_min=0.0, f_max=11025, htk=False, dtype='float32') -计算Mels频率. +计算Mels频率。 参数 :::::::::::: - - **n_mels** (int) - 输入tensor,默认64. - - **f_min** (float) - 最小频率(hz), 默认0.0. - - **f_max** (float) - 最大频率(hz), 默认11025.0. - - **htk** (bool) - 是否使用htk缩放,默认False. - - **dtype** (str) - 默认'float32'. + - **n_mels** (int) - 输入tensor, 默认 64。 + - **f_min** (float) - 最小频率(hz), 默认 0.0。 + - **f_max** (float) - 最大频率(hz), 默认 11025.0。 + - **htk** (bool) - 是否使用htk缩放, 默认False。 + - **dtype** (str) - 默认'float32'。 返回 ::::::::: -``paddle.Tensor``,Tensor shape (n_mels,). +``paddle.Tensor``,Tensor shape (n_mels,)。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst index 34b6e855b92..109565fad40 100644 --- a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst +++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst @@ -3,20 +3,20 @@ mel_to_hz ------------------------------- -.. py:function::paddle.audio.functional.mel_to_hz(feq, htk=False) +.. py:function:: paddle.audio.functional.mel_to_hz(feq, htk=False) -转换Mels为Hz. +转换Mels为Hz。 参数 :::::::::::: - - **mel** (Tensor, float) - 输入tensor. - - **htk** (bool) - 是否使用htk缩放,默认False. + - **mel** (Tensor, float) - 输入tensor。 + - **htk** (bool) - 是否使用htk缩放, 默认False。 返回 ::::::::: -``paddle.Tensor或float``,hz为单位的频率. +``paddle.Tensor或float``, hz为单位的频率。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst index a4073bb73cc..e4ce7d78f43 100644 --- a/docs/api/paddle/audio/functional/power_to_db_cn.rst +++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst @@ -3,22 +3,22 @@ power_to_db ------------------------------- -.. py:function::paddle.audio.functional.power_to_db(spect, ref_value=1.0, amin=1e-10, top_db=80.0) +.. py:function:: paddle.audio.functional.power_to_db(spect, ref_value=1.0, amin=1e-10, top_db=80.0) -转换能量谱为分贝单位. +转换能量谱为分贝单位。 参数 :::::::::::: - - **spect** (Tensor) - stft能量谱,输入tensor. - - **ref_value** (float) - 参照值,振幅相对于ref进行缩放,默认1.0. - - **amin** (float) - 最小阈值,默认1e-10. - - **top_db** (Optional[float]) - 阈值,默认80.0. + - **spect** (Tensor) - stft能量谱, 输入tensor。 + - **ref_value** (float) - 参照值, 振幅相对于ref进行缩放, 默认 1.0。 + - **amin** (float) - 最小阈值, 默认 1e-10。 + - **top_db** (float,可选) - 阈值, 默认 80.0。 返回 ::::::::: -``paddle.Tensor或float``,db单位的能量谱. +``paddle.Tensor或float``, db单位的能量谱。 代码示例 ::::::::: From 4c7d598c632fd5a5ab49f33e6929cd23963b001d Mon Sep 17 00:00:00 2001 From: YangZhou Date: Fri, 23 Sep 2022 17:37:08 +0800 Subject: [PATCH 04/12] fix typo --- docs/api/paddle/audio/Overview_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst index 4bc1ab2629d..edd63d9e9ff 100644 --- a/docs/api/paddle/audio/Overview_cn.rst +++ b/docs/api/paddle/audio/Overview_cn.rst @@ -19,7 +19,7 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: " :ref:`LogMelSpectrogram ` ", "计算语音特征LogMelSpectrogram" " :ref:`MelSpectrogram ` ", "计算语音特征MelSpectrogram" - " :ref:`MFCC ` ", "计算语音特征MFCC" " :ref:`Spectrogram ` ", "计算语音特征Spectrogram" .. _about_functional: From ddb2e0d9a33e01135c33d0c5027c3ec63c569320 Mon Sep 17 00:00:00 2001 From: YangZhou Date: Fri, 23 Sep 2022 17:57:57 +0800 Subject: [PATCH 05/12] fix features overivew link --- docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst | 2 +- docs/api/paddle/audio/features/MelSpectrogram_cn.rst | 4 ++-- docs/api/paddle/audio/features/Spectrogram_cn.rst | 2 +- 3 files changed, 4 insertions(+), 4 deletions(-) diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index ee668e524df..8816a398b26 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -1,4 +1,4 @@ -.. _cn_api_audio_features_Spectrogram: +.. _cn_api_audio_features_LogMelSpectrogram: LogMelSpectrogram ------------------------------- diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index 2ef464eadd8..c2b669fd558 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -1,9 +1,9 @@ -.. _cn_api_audio_features_Spectrogram: +.. _cn_api_audio_features_MelSpectrogram: MelSpectrogram ------------------------------- -.. py:class::paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32') +.. py:class:: paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32') 求得给定信号的Mel谱。 diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst index 0066a79b16e..bec8d4b4bbe 100644 --- a/docs/api/paddle/audio/features/Spectrogram_cn.rst +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -3,7 +3,7 @@ Spectrogram ------------------------------- -.. py:class::paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32') +.. py:class:: paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32') 通过给定信号的短时傅里叶变换得到频谱。 From 1a1887982c53bc2bcf29bfb487330b025a6d3654 Mon Sep 17 00:00:00 2001 From: YangZhou Date: Thu, 29 Sep 2022 16:57:29 +0800 Subject: [PATCH 06/12] add example --- .../audio/features/LogMelSpectrogram_cn.rst | 15 +++++++++++++-- docs/api/paddle/audio/features/MFCC_cn.rst | 15 +++++++++++++-- .../paddle/audio/features/MelSpectrogram_cn.rst | 14 +++++++++++++- docs/api/paddle/audio/features/Spectrogram_cn.rst | 15 +++++++++++++-- .../api/paddle/audio/functional/create_dct_cn.rst | 6 +++++- 5 files changed, 57 insertions(+), 8 deletions(-) diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index 8816a398b26..113a8180f38 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -36,5 +36,16 @@ LogMelSpectrogram 代码示例 ::::::::: - -COPY-FROM: paddle.audio.features.LogMelSpectrogram +:: + import paddle + from paddle.audio.features import LogMelSpectrogram + + sample_rate = 16000 + wav_duration = 0.5 + num_channels = 1 + num_frames = + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + waveform = wav_data.tile([num_channels, 1]) + + feature_extractor = LogMelSpectrogram(sr=sample_rate, n_fft=512, window = 'hann') + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index 71123c2f4fc..c64867e7d20 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -36,5 +36,16 @@ MFCC 代码示例 ::::::::: - -COPY-FROM: paddle.audio.features.MFCC +:: + import paddle + from paddle.audio.features import MFCC + + sample_rate = 16000 + wav_duration = 0.5 + num_channels = 1 + num_frames = + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + waveform = wav_data.tile([num_channels, 1]) + + feature_extractor = MFCC(sr=sample_rate, n_fft=512, window = 'hann') + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index c2b669fd558..eb907755b86 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -34,4 +34,16 @@ MelSpectrogram 代码示例 ::::::::: -COPY-FROM: paddle.audio.features.MelSpectrogram +:: + import paddle + from paddle.audio.features import MelSpectrogram + + sample_rate = 16000 + wav_duration = 0.5 + num_channels = 1 + num_frames = sample_rate * wav_duration + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + waveform = wav_data.tile([num_channels, 1]) + + feature_extractor = MelSpectrogram(sr=sample_rate, n_fft=512, window = 'hann') + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst index bec8d4b4bbe..3ef389a6a40 100644 --- a/docs/api/paddle/audio/features/Spectrogram_cn.rst +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -27,5 +27,16 @@ Spectrogram 代码示例 ::::::::: - -COPY-FROM: paddle.audio.features.Spectrogram +:: + import paddle + from paddle.audio.features import Spectrogram + + sample_rate = 16000 + wav_duration = 0.5 + num_channels = 1 + num_frames = sample_rate * wav_duration + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + waveform = wav_data.tile([num_channels, 1]) + + feature_extractor = Spectrogram(n_fft=512, window = 'hann', power = 1.0) + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst index 2ed94bc58fe..5b37a80370d 100644 --- a/docs/api/paddle/audio/functional/create_dct_cn.rst +++ b/docs/api/paddle/audio/functional/create_dct_cn.rst @@ -23,4 +23,8 @@ create_dct 代码示例 ::::::::: -COPY-FROM: paddle.audio.functional.create_dct +:: + import paddle + n_mfcc = 23 + n_mels = 257 + dct = paddle.audio.functional.create_dct(n_mfcc, n_mels) From d710ee4e11e93f406da06d2c6080251432f6617d Mon Sep 17 00:00:00 2001 From: YangZhou Date: Fri, 30 Sep 2022 09:45:43 +0800 Subject: [PATCH 07/12] fix mfcc doc --- docs/api/paddle/audio/features/MFCC_cn.rst | 1 - 1 file changed, 1 deletion(-) diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index c64867e7d20..3467c99ace4 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -36,7 +36,6 @@ MFCC 代码示例 ::::::::: -:: import paddle from paddle.audio.features import MFCC From d869c6c1eb692111132d2b42e1613e145a93f1f6 Mon Sep 17 00:00:00 2001 From: YangZhou Date: Fri, 30 Sep 2022 15:07:02 +0800 Subject: [PATCH 08/12] add get_window --- .../audio/features/LogMelSpectrogram_cn.rst | 32 ++++++++++------- .../audio/functional/fft_frequencies_cn.rst | 9 ++++- .../paddle/audio/functional/get_window_cn.rst | 36 +++++++++++++++++++ 3 files changed, 64 insertions(+), 13 deletions(-) create mode 100644 docs/api/paddle/audio/functional/get_window_cn.rst diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index 113a8180f38..251d91cdead 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -36,16 +36,24 @@ LogMelSpectrogram 代码示例 ::::::::: -:: - import paddle - from paddle.audio.features import LogMelSpectrogram +.. code-block:: python + + import paddle + + from paddle.audio.features import LogMelSpectrogram - sample_rate = 16000 - wav_duration = 0.5 - num_channels = 1 - num_frames = - wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 - waveform = wav_data.tile([num_channels, 1]) - - feature_extractor = LogMelSpectrogram(sr=sample_rate, n_fft=512, window = 'hann') - feats = feature_extractor(waveform) + sample_rate = 16000 + + wav_duration = 0.5 + + num_channels = 1 + + num_frames = + + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + + waveform = wav_data.tile([num_channels, 1]) + + feature_extractor = LogMelSpectrogram(sr=sample_rate, n_fft=512, window = 'hann') + + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst index 88fb2ef958d..ea4e24659dc 100644 --- a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst @@ -22,4 +22,11 @@ fft_frequencies 代码示例 ::::::::: -COPY-FROM: paddle.audio.functional.fft_frequencies +:: + import paddle + + sr = 16000 + + n_fft = 128 + + fft_freq = paddle.audio.functional.fft_frequencies(sr, n_fft) diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst new file mode 100644 index 00000000000..ae05780e2ee --- /dev/null +++ b/docs/api/paddle/audio/functional/get_window_cn.rst @@ -0,0 +1,36 @@ +.. _cn_api_audio_functional_get_window: + +get_window +------------------------------- + +.. py:function:: paddle.audio.functional.get_window(window, win_length, fftbins=True, dtype='float64') + +根据参数给出对应长度和类型的窗函数。 + +参数 +:::::::::::: + + - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'kaiser', 'gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。 + - **win_length** (int) - 采样点数。 + - **fftbins** (bool) - 如果是True,给出一个周期性的窗, 如果是False给出一个对称性的窗,默认是True。 + - **dtype** (str) - 默认'float64'。 + +返回 +::::::::: + +``paddle.Tensor``,对应窗表征的Tensor 。 + +代码示例 +::::::::: + +:: + + import paddle + + n_fft = 512 + + cosine_window = paddle.audio.functional.get_window('cosine', n_fft) + + std = 7 + + gussian_window = paddle.audio.functional.get_window(('gussain',std), n_fft) From d56b1b08dbee2d9295681a21f604b489ab43c3ee Mon Sep 17 00:00:00 2001 From: YangZhou Date: Fri, 30 Sep 2022 16:54:52 +0800 Subject: [PATCH 09/12] update code example --- docs/api/paddle/audio/Overview_cn.rst | 4 ++-- .../audio/features/LogMelSpectrogram_cn.rst | 2 +- docs/api/paddle/audio/features/MFCC_cn.rst | 11 ++++++++++- .../paddle/audio/features/MelSpectrogram_cn.rst | 9 ++++++++- docs/api/paddle/audio/features/Spectrogram_cn.rst | 10 +++++++++- .../audio/functional/compute_fbank_matrix_cn.rst | 10 +++++++++- .../audio/functional/fft_frequencies_cn.rst | 1 + docs/api/paddle/audio/functional/hz_to_mel_cn.rst | 11 ++++++++++- .../audio/functional/mel_frequencies_cn.rst | 15 ++++++++++++++- docs/api/paddle/audio/functional/mel_to_hz_cn.rst | 11 ++++++++++- .../paddle/audio/functional/power_to_db_cn.rst | 9 ++++++++- 11 files changed, 82 insertions(+), 11 deletions(-) diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst index edd63d9e9ff..b626788089b 100644 --- a/docs/api/paddle/audio/Overview_cn.rst +++ b/docs/api/paddle/audio/Overview_cn.rst @@ -17,8 +17,8 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: :header: "API 名称", "API 功能" :widths: 10, 30 - " :ref:`LogMelSpectrogram ` ", "计算语音特征LogMelSpectrogram" - " :ref:`MelSpectrogram ` ", "计算语音特征MelSpectrogram" + " :ref:`LogMelSpectrogram ` ", "计算语音特征LogMelSpectrogram" + " :ref:`MelSpectrogram ` ", "计算语音特征MelSpectrogram" " :ref:`MFCC ` ", "计算语音特征MFCC" " :ref:`Spectrogram ` ", "计算语音特征Spectrogram" diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index 251d91cdead..34a35f2c723 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -48,7 +48,7 @@ LogMelSpectrogram num_channels = 1 - num_frames = + num_frames = wav_duration * sample_rate wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index 3467c99ace4..a88c5aa48f8 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -36,15 +36,24 @@ MFCC 代码示例 ::::::::: +.. code-block:: python + import paddle + from paddle.audio.features import MFCC sample_rate = 16000 + wav_duration = 0.5 + num_channels = 1 - num_frames = + + num_frames = wav_duration * sample_rate + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + waveform = wav_data.tile([num_channels, 1]) feature_extractor = MFCC(sr=sample_rate, n_fft=512, window = 'hann') + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index eb907755b86..635e922b398 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -33,17 +33,24 @@ MelSpectrogram 代码示例 ::::::::: +.. code-block:: python -:: import paddle + from paddle.audio.features import MelSpectrogram sample_rate = 16000 + wav_duration = 0.5 + num_channels = 1 + num_frames = sample_rate * wav_duration + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + waveform = wav_data.tile([num_channels, 1]) feature_extractor = MelSpectrogram(sr=sample_rate, n_fft=512, window = 'hann') + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst index 3ef389a6a40..704aea0210c 100644 --- a/docs/api/paddle/audio/features/Spectrogram_cn.rst +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -27,16 +27,24 @@ Spectrogram 代码示例 ::::::::: -:: +.. code-block:: python + import paddle + from paddle.audio.features import Spectrogram sample_rate = 16000 + wav_duration = 0.5 + num_channels = 1 + num_frames = sample_rate * wav_duration + wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 + waveform = wav_data.tile([num_channels, 1]) feature_extractor = Spectrogram(n_fft=512, window = 'hann', power = 1.0) + feats = feature_extractor(waveform) diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst index 9331996073c..56c268b1d38 100644 --- a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst +++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst @@ -27,4 +27,12 @@ compute_fbank_matrix 代码示例 ::::::::: -COPY-FROM: paddle.audio.functional.compute_fbank_matrix +:: + + import paddle + + n_mfcc = 23 + + n_mels = 51 + + paddle_dct = paddle.audio.functional.create_dct(n_mfcc, n_mels) diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst index ea4e24659dc..112164624c8 100644 --- a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst @@ -23,6 +23,7 @@ fft_frequencies ::::::::: :: + import paddle sr = 16000 diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst index dbcaaeea943..8433381a774 100644 --- a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst +++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst @@ -21,4 +21,13 @@ hz_to_mel 代码示例 ::::::::: -COPY-FROM: paddle.audio.functional.hz_to_mel +:: + + import paddle + + val = 3.0 + + htk_flag = True + + mel_paddle_tensor = paddle.audio.functional.hz_to_mel( + paddle.to_tensor(val), htk_flag) diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst index bca8e64d539..1ffef8708e8 100644 --- a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst @@ -24,4 +24,17 @@ mel_frequencies 代码示例 ::::::::: -COPY-FROM: paddle.audio.functional.mel_frequencies +:: + + import paddle + + n_mels = 64 + + f_min = 0.5 + + f_max = 10000 + + htk_flag = True + + paddle_mel_freq = paddle.audio.functional.mel_frequencies( + n_mels, f_min, f_max, htk_flag, 'float64') diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst index 109565fad40..0649d5996b9 100644 --- a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst +++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst @@ -21,4 +21,13 @@ mel_to_hz 代码示例 ::::::::: -COPY-FROM: paddle.audio.functional.mel_to_hz +:: + + import paddle + + val = 3.0 + + htk_flag = True + + mel_paddle_tensor = paddle.audio.functional.mel_to_hz( + paddle.to_tensor(val), htk_flag) diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst index e4ce7d78f43..df799177243 100644 --- a/docs/api/paddle/audio/functional/power_to_db_cn.rst +++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst @@ -23,4 +23,11 @@ power_to_db 代码示例 ::::::::: -COPY-FROM: paddle.audio.functional.power_to_db +:: + + import paddle + + val = 3.0 + + decibel_paddle = paddle.audio.functional.power_to_db( + paddle.to_tensor(val)) From b9d348837f9c979c84853a4fc45c3bea85a2b812 Mon Sep 17 00:00:00 2001 From: YangZhou Date: Fri, 14 Oct 2022 17:54:19 +0800 Subject: [PATCH 10/12] rm example --- .../audio/features/LogMelSpectrogram_cn.rst | 21 +----------------- docs/api/paddle/audio/features/MFCC_cn.rst | 21 +----------------- .../audio/features/MelSpectrogram_cn.rst | 21 +----------------- .../paddle/audio/features/Spectrogram_cn.rst | 22 +------------------ .../paddle/audio/functional/create_dct_cn.rst | 6 +---- .../audio/functional/fft_frequencies_cn.rst | 10 +-------- .../paddle/audio/functional/hz_to_mel_cn.rst | 11 +--------- 7 files changed, 7 insertions(+), 105 deletions(-) diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index 34a35f2c723..fba2598c27a 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -36,24 +36,5 @@ LogMelSpectrogram 代码示例 ::::::::: -.. code-block:: python - import paddle - - from paddle.audio.features import LogMelSpectrogram - - sample_rate = 16000 - - wav_duration = 0.5 - - num_channels = 1 - - num_frames = wav_duration * sample_rate - - wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 - - waveform = wav_data.tile([num_channels, 1]) - - feature_extractor = LogMelSpectrogram(sr=sample_rate, n_fft=512, window = 'hann') - - feats = feature_extractor(waveform) +COPY-FROM: paddle.audio.features.layers.LogMelSpectrogram diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index a88c5aa48f8..3787c0aeb88 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -36,24 +36,5 @@ MFCC 代码示例 ::::::::: -.. code-block:: python - import paddle - - from paddle.audio.features import MFCC - - sample_rate = 16000 - - wav_duration = 0.5 - - num_channels = 1 - - num_frames = wav_duration * sample_rate - - wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 - - waveform = wav_data.tile([num_channels, 1]) - - feature_extractor = MFCC(sr=sample_rate, n_fft=512, window = 'hann') - - feats = feature_extractor(waveform) +COPY-FROM: paddle.audio.features.layers.MFCC diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index 635e922b398..c2b669fd558 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -33,24 +33,5 @@ MelSpectrogram 代码示例 ::::::::: -.. code-block:: python - import paddle - - from paddle.audio.features import MelSpectrogram - - sample_rate = 16000 - - wav_duration = 0.5 - - num_channels = 1 - - num_frames = sample_rate * wav_duration - - wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 - - waveform = wav_data.tile([num_channels, 1]) - - feature_extractor = MelSpectrogram(sr=sample_rate, n_fft=512, window = 'hann') - - feats = feature_extractor(waveform) +COPY-FROM: paddle.audio.features.MelSpectrogram diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst index 704aea0210c..32cc88ee69f 100644 --- a/docs/api/paddle/audio/features/Spectrogram_cn.rst +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -27,24 +27,4 @@ Spectrogram 代码示例 ::::::::: -.. code-block:: python - - import paddle - - from paddle.audio.features import Spectrogram - - sample_rate = 16000 - - wav_duration = 0.5 - - num_channels = 1 - - num_frames = sample_rate * wav_duration - - wav_data = paddle.linspace(-1.0, 1.0, num_frames) * 0.1 - - waveform = wav_data.tile([num_channels, 1]) - - feature_extractor = Spectrogram(n_fft=512, window = 'hann', power = 1.0) - - feats = feature_extractor(waveform) +COPY-FROM: paddle.audio.features.Spectrogram diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst index 5b37a80370d..2ed94bc58fe 100644 --- a/docs/api/paddle/audio/functional/create_dct_cn.rst +++ b/docs/api/paddle/audio/functional/create_dct_cn.rst @@ -23,8 +23,4 @@ create_dct 代码示例 ::::::::: -:: - import paddle - n_mfcc = 23 - n_mels = 257 - dct = paddle.audio.functional.create_dct(n_mfcc, n_mels) +COPY-FROM: paddle.audio.functional.create_dct diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst index 112164624c8..88fb2ef958d 100644 --- a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst @@ -22,12 +22,4 @@ fft_frequencies 代码示例 ::::::::: -:: - - import paddle - - sr = 16000 - - n_fft = 128 - - fft_freq = paddle.audio.functional.fft_frequencies(sr, n_fft) +COPY-FROM: paddle.audio.functional.fft_frequencies diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst index 8433381a774..dbcaaeea943 100644 --- a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst +++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst @@ -21,13 +21,4 @@ hz_to_mel 代码示例 ::::::::: -:: - - import paddle - - val = 3.0 - - htk_flag = True - - mel_paddle_tensor = paddle.audio.functional.hz_to_mel( - paddle.to_tensor(val), htk_flag) +COPY-FROM: paddle.audio.functional.hz_to_mel From fc6bde25694736d5a8484e2cde5ed31829a92521 Mon Sep 17 00:00:00 2001 From: YangZhou Date: Mon, 17 Oct 2022 12:54:41 +0800 Subject: [PATCH 11/12] format --- docs/api/paddle/audio/Overview_cn.rst | 17 +++++------ .../audio/features/LogMelSpectrogram_cn.rst | 28 ++++++++--------- docs/api/paddle/audio/features/MFCC_cn.rst | 30 +++++++++---------- .../audio/features/MelSpectrogram_cn.rst | 22 +++++++------- .../paddle/audio/features/Spectrogram_cn.rst | 10 +++---- .../functional/compute_fbank_matrix_cn.rst | 14 ++++----- .../paddle/audio/functional/create_dct_cn.rst | 4 +-- .../audio/functional/fft_frequencies_cn.rst | 4 +-- .../paddle/audio/functional/get_window_cn.rst | 4 +-- .../paddle/audio/functional/hz_to_mel_cn.rst | 8 ++--- .../audio/functional/mel_frequencies_cn.rst | 6 ++-- .../paddle/audio/functional/mel_to_hz_cn.rst | 8 ++--- .../audio/functional/power_to_db_cn.rst | 6 ++-- 13 files changed, 80 insertions(+), 81 deletions(-) diff --git a/docs/api/paddle/audio/Overview_cn.rst b/docs/api/paddle/audio/Overview_cn.rst index b626788089b..c88e729e3b4 100644 --- a/docs/api/paddle/audio/Overview_cn.rst +++ b/docs/api/paddle/audio/Overview_cn.rst @@ -17,10 +17,10 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: :header: "API 名称", "API 功能" :widths: 10, 30 - " :ref:`LogMelSpectrogram ` ", "计算语音特征LogMelSpectrogram" - " :ref:`MelSpectrogram ` ", "计算语音特征MelSpectrogram" - " :ref:`MFCC ` ", "计算语音特征MFCC" - " :ref:`Spectrogram ` ", "计算语音特征Spectrogram" + " :ref:`LogMelSpectrogram ` ", "计算语音特征 LogMelSpectrogram" + " :ref:`MelSpectrogram ` ", "计算语音特征 MelSpectrogram" + " :ref:`MFCC ` ", "计算语音特征 MFCC" + " :ref:`Spectrogram ` ", "计算语音特征 Spectrogram" .. _about_functional: @@ -31,12 +31,11 @@ paddle.audio 目录是飞桨在语音领域的高层 API。具体如下: :header: "API 名称", "API 功能" :widths: 10, 30 - " :ref:`compute_fbank_matrix ` ", "计算fbank矩阵" + " :ref:`compute_fbank_matrix ` ", "计算 fbank 矩阵" " :ref:`create_dct ` ", "计算离散余弦变化矩阵" " :ref:`fft_frequencies ` ", "计算离散傅里叶采样频率" - " :ref:`hz_to_mel` ", "转换hz频率为mel频率" - " :ref:`mel_to_hz` ", "转换mel频率为hz频率" - " :ref:`mel_frequencies` ", "计算mel频率" + " :ref:`hz_to_mel` ", "转换 hz 频率为 mel 频率" + " :ref:`mel_to_hz` ", "转换 mel 频率为 hz 频率" + " :ref:`mel_frequencies` ", "计算 mel 频率" " :ref:`power_to_db` ", "转换能量谱为分贝" " :ref:`get_window` ", "得到各种窗函数" - diff --git a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst index fba2598c27a..e7d472e708c 100644 --- a/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst @@ -5,27 +5,27 @@ LogMelSpectrogram .. py:class:: paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') -计算给定信号的log-mel谱。 +计算给定信号的 log-mel 谱。 参数 :::::::::::: - - **sr** (int) - 采样率,默认22050。 - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 - - **hop_length** (int,可选) - 帧移,默认512。 - - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **sr** (int) - 采样率,默认 22050。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - **window** (str) - 窗函数名,默认'hann'。 - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 - - **pad_mode** (str) - 如果center是True,选择填充的方式,默认值是'reflect'。 - - **n_mels** (int) - mel bins的数目。 - - **f_min** (float,可选) - 最小频率(hz),默认50.0。 - - **f_max** (float,可选) - 最大频率(hz),默认为None。 - - **htk** (bool,可选) - 在计算fbank矩阵时是否用在HTK公式缩放. - - **norm** (Union[str,float],可选) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化. - - **ref_value** (float) - 参照值,如果小于1.0,信号的db会被提升,相反db会下降,默认值为1.0. + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。 + - **n_mels** (int) - mel bins 的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为 None。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放. + - **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化. + - **ref_value** (float) - 参照值,如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0. - **amin** (float) - 输入的幅值的最小值. - - **top_db** (float,可选) - log-mel谱的最大值(db). + - **top_db** (float,可选) - log-mel 谱的最大值(db). - **dtype** (str) - 输入和窗的数据类型,默认是'float32'. diff --git a/docs/api/paddle/audio/features/MFCC_cn.rst b/docs/api/paddle/audio/features/MFCC_cn.rst index 3787c0aeb88..b1da994754f 100644 --- a/docs/api/paddle/audio/features/MFCC_cn.rst +++ b/docs/api/paddle/audio/features/MFCC_cn.rst @@ -5,28 +5,28 @@ MFCC .. py:class:: paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32') -计算给定信号的MFCC。 +计算给定信号的 MFCC。 参数 :::::::::::: - - **sr** (int,可选) - 采样率,默认22050。 - - **n_mfcc** (int,可选) - mfcc的维度,默认40。 - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 - - **hop_length** (int,可选) - 帧移,默认512。 - - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **sr** (int,可选) - 采样率,默认 22050。 + - **n_mfcc** (int,可选) - mfcc 的维度,默认 40。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - **window** (str) - 窗函数名,默认'hann'。 - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 - - **pad_mode** (str) - 如果center是True,选择填充的方式,默认值是'reflect'. - - **n_mels** (int) - mel bins的数目。 - - **f_min** (float,可选) - 最小频率(hz),默认50.0。 - - **f_max** (float,可选) - 最大频率(hz),默认为None。 - - **htk** (bool,可选) - 在计算fbank矩阵时是否用在HTK公式缩放。 - - **norm** (Union[str, float], optional) - 计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化。 - - **ref_value** (float) - 参照值, 如果小于1.0,信号的db会被提升, 相反db会下降, 默认值为1.0。 + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'. + - **n_mels** (int) - mel bins 的数目。 + - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 + - **f_max** (float,可选) - 最大频率(hz),默认为 None。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。 + - **norm** (Union[str, float], optional) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。 + - **ref_value** (float) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。 - **amin** (float) - 输入的幅值的最小值。 - - **top_db** (float,可选) - log-mel谱的最大值(db)。 + - **top_db** (float,可选) - log-mel 谱的最大值(db)。 - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 返回 diff --git a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst index c2b669fd558..0efc346e101 100644 --- a/docs/api/paddle/audio/features/MelSpectrogram_cn.rst +++ b/docs/api/paddle/audio/features/MelSpectrogram_cn.rst @@ -5,24 +5,24 @@ MelSpectrogram .. py:class:: paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32') -求得给定信号的Mel谱。 +求得给定信号的 Mel 谱。 参数 :::::::::::: - - **sr** (int,可选) - 采样率,默认22050。 - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 - - **hop_length** (int,可选) - 帧移,默认512。 - - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **sr** (int,可选) - 采样率,默认 22050。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - **window** (str) - 窗函数名,默认'hann'。 - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 - - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'。 - - **n_mels** (int) - mel bins的数目。 + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。 + - **n_mels** (int) - mel bins 的数目。 - **f_min** (float,可选) - 最小频率(hz),默认 50.0。 - - **f_max** (float,可选) - 最大频率(hz),默认为None。 - - **htk** (bool,可选) - 在计算fbank矩阵时是否用在HTK公式缩放。 - - **norm** (Union[str,float],可选) -计算fbank矩阵时正则化的种类,默认是'slaney',你也可以norm=0.5,使用p-norm正则化。 + - **f_max** (float,可选) - 最大频率(hz),默认为 None。 + - **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。 + - **norm** (Union[str,float],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。 - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 diff --git a/docs/api/paddle/audio/features/Spectrogram_cn.rst b/docs/api/paddle/audio/features/Spectrogram_cn.rst index 32cc88ee69f..31f88cf75e8 100644 --- a/docs/api/paddle/audio/features/Spectrogram_cn.rst +++ b/docs/api/paddle/audio/features/Spectrogram_cn.rst @@ -10,13 +10,13 @@ Spectrogram 参数 :::::::::::: - - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认512。 - - **hop_length** (int,可选) - 帧移,默认512。 - - **win_length** (int,可选) - 短时FFT的窗长,默认为None。 + - **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。 + - **hop_length** (int,可选) - 帧移,默认 512。 + - **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。 - **window** (str) - 窗函数名,默认'hann'。 - **power** (float) - 幅度谱的指数。 - - **center** (bool) - 对输入信号填充,如果True,那么t以t*hop_length为中心,如果为False,则t以t*hop_length开始。 - - **pad_mode** (str) - 如果center是True,选择填充的方式.默认值是'reflect'。 + - **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。 + - **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。 - **dtype** (str) - 输入和窗的数据类型,默认是'float32'。 diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst index 56c268b1d38..4c15a97ce5c 100644 --- a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst +++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst @@ -5,18 +5,18 @@ compute_fbank_matrix .. py:function:: paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32') -计算mel变换矩阵。 +计算 mel 变换矩阵。 参数 :::::::::::: - **sr** (int) - 采样率。 - - **n_fft** (int) - fft bins的数目。 - - **n_mels** (float) - mels bins的数目。 + - **n_fft** (int) - fft bins 的数目。 + - **n_mels** (float) - mels bins 的数目。 - **f_min** (float) - 最小频率(hz)。 - **f_max** (Optional[float]) -最大频率(hz)。 - - **htk** (bool) -是否使用htk缩放。 - - **norm** (Union[str,float]) -norm的类型,默认是'slaney'。 + - **htk** (bool) -是否使用 htk 缩放。 + - **norm** (Union[str,float]) -norm 的类型,默认是'slaney'。 - **dtype** (str) - 返回矩阵的数据类型,默认'float32'。 返回 @@ -30,9 +30,9 @@ compute_fbank_matrix :: import paddle - + n_mfcc = 23 - n_mels = 51 + n_mels = 51 paddle_dct = paddle.audio.functional.create_dct(n_mfcc, n_mels) diff --git a/docs/api/paddle/audio/functional/create_dct_cn.rst b/docs/api/paddle/audio/functional/create_dct_cn.rst index 2ed94bc58fe..a1a74847a12 100644 --- a/docs/api/paddle/audio/functional/create_dct_cn.rst +++ b/docs/api/paddle/audio/functional/create_dct_cn.rst @@ -10,8 +10,8 @@ create_dct 参数 :::::::::::: - - **n_mfcc** (float) - mel倒谱系数数目。 - - **n_mels** (int) - mel的fliterbank数。 + - **n_mfcc** (float) - mel 倒谱系数数目。 + - **n_mels** (int) - mel 的 fliterbank 数。 - **norm** (float) - 正则化类型, 默认值是'ortho'。 - **dtype** (str) - 默认'float32'。 diff --git a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst index 88fb2ef958d..4d05f8ca82f 100644 --- a/docs/api/paddle/audio/functional/fft_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/fft_frequencies_cn.rst @@ -5,13 +5,13 @@ fft_frequencies .. py:function:: paddle.audio.functional.fft_frequencies(sr, n_fft, dtype='float32') -计算fft频率。 +计算 fft 频率。 参数 :::::::::::: - **sr** (int) - 采样率。 - - **n_fft** (int) - fft bins的数目。 + - **n_fft** (int) - fft bins 的数目。 - **dtype** (str) - 默认'float32'。 返回 diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst index ae05780e2ee..f90a55c1874 100644 --- a/docs/api/paddle/audio/functional/get_window_cn.rst +++ b/docs/api/paddle/audio/functional/get_window_cn.rst @@ -12,13 +12,13 @@ get_window - **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'kaiser', 'gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。 - **win_length** (int) - 采样点数。 - - **fftbins** (bool) - 如果是True,给出一个周期性的窗, 如果是False给出一个对称性的窗,默认是True。 + - **fftbins** (bool) - 如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。 - **dtype** (str) - 默认'float64'。 返回 ::::::::: -``paddle.Tensor``,对应窗表征的Tensor 。 +``paddle.Tensor``,对应窗表征的 Tensor 。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst index dbcaaeea943..097124edbca 100644 --- a/docs/api/paddle/audio/functional/hz_to_mel_cn.rst +++ b/docs/api/paddle/audio/functional/hz_to_mel_cn.rst @@ -5,18 +5,18 @@ hz_to_mel .. py:function:: paddle.audio.functional.hz_to_mel(feq, htk=False) -转换Hz为Mels。 +转换 Hz 为 Mels。 参数 :::::::::::: - - **freq** (Tensor, float) - 输入tensor。 - - **htk** (bool) - 是否使用htk缩放, 默认False。 + - **freq** (Tensor, float) - 输入 tensor。 + - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 返回 ::::::::: -``paddle.Tensor或float``, mels值。 +``paddle.Tensor 或 float``, mels 值。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst index 1ffef8708e8..ddf64c791c6 100644 --- a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst @@ -5,15 +5,15 @@ mel_frequencies .. py:function:: paddle.audio.functional.mel_frequencies(n_mels=64, f_min=0.0, f_max=11025, htk=False, dtype='float32') -计算Mels频率。 +计算 Mels 频率。 参数 :::::::::::: - - **n_mels** (int) - 输入tensor, 默认 64。 + - **n_mels** (int) - 输入 tensor, 默认 64。 - **f_min** (float) - 最小频率(hz), 默认 0.0。 - **f_max** (float) - 最大频率(hz), 默认 11025.0。 - - **htk** (bool) - 是否使用htk缩放, 默认False。 + - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 - **dtype** (str) - 默认'float32'。 返回 diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst index 0649d5996b9..c947910bb52 100644 --- a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst +++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst @@ -5,18 +5,18 @@ mel_to_hz .. py:function:: paddle.audio.functional.mel_to_hz(feq, htk=False) -转换Mels为Hz。 +转换 Mels 为 Hz。 参数 :::::::::::: - - **mel** (Tensor, float) - 输入tensor。 - - **htk** (bool) - 是否使用htk缩放, 默认False。 + - **mel** (Tensor, float) - 输入 tensor。 + - **htk** (bool) - 是否使用 htk 缩放, 默认 False。 返回 ::::::::: -``paddle.Tensor或float``, hz为单位的频率。 +``paddle.Tensor 或 float``, hz 为单位的频率。 代码示例 ::::::::: diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst index df799177243..476573ee52c 100644 --- a/docs/api/paddle/audio/functional/power_to_db_cn.rst +++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst @@ -10,15 +10,15 @@ power_to_db 参数 :::::::::::: - - **spect** (Tensor) - stft能量谱, 输入tensor。 - - **ref_value** (float) - 参照值, 振幅相对于ref进行缩放, 默认 1.0。 + - **spect** (Tensor) - stft 能量谱, 输入 tensor。 + - **ref_value** (float) - 参照值, 振幅相对于 ref 进行缩放, 默认 1.0。 - **amin** (float) - 最小阈值, 默认 1e-10。 - **top_db** (float,可选) - 阈值, 默认 80.0。 返回 ::::::::: -``paddle.Tensor或float``, db单位的能量谱。 +``paddle.Tensor 或 float``, db 单位的能量谱。 代码示例 ::::::::: From d3f8ee7970b77b772097fca70c8372fee4635f7d Mon Sep 17 00:00:00 2001 From: YangZhou Date: Tue, 18 Oct 2022 18:54:55 +0800 Subject: [PATCH 12/12] rm code example in cn --- .../audio/functional/compute_fbank_matrix_cn.rst | 10 +--------- .../api/paddle/audio/functional/get_window_cn.rst | 12 +----------- .../audio/functional/mel_frequencies_cn.rst | 15 +-------------- docs/api/paddle/audio/functional/mel_to_hz_cn.rst | 11 +---------- .../paddle/audio/functional/power_to_db_cn.rst | 9 +-------- 5 files changed, 5 insertions(+), 52 deletions(-) diff --git a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst index 4c15a97ce5c..52b0b6d90bb 100644 --- a/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst +++ b/docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst @@ -27,12 +27,4 @@ compute_fbank_matrix 代码示例 ::::::::: -:: - - import paddle - - n_mfcc = 23 - - n_mels = 51 - - paddle_dct = paddle.audio.functional.create_dct(n_mfcc, n_mels) +COPY-FROM: paddle.audio.functional.compute_fbank_matrix diff --git a/docs/api/paddle/audio/functional/get_window_cn.rst b/docs/api/paddle/audio/functional/get_window_cn.rst index f90a55c1874..365bdb883a6 100644 --- a/docs/api/paddle/audio/functional/get_window_cn.rst +++ b/docs/api/paddle/audio/functional/get_window_cn.rst @@ -23,14 +23,4 @@ get_window 代码示例 ::::::::: -:: - - import paddle - - n_fft = 512 - - cosine_window = paddle.audio.functional.get_window('cosine', n_fft) - - std = 7 - - gussian_window = paddle.audio.functional.get_window(('gussain',std), n_fft) +COPY-FROM: paddle.audio.functional.get_window diff --git a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst index ddf64c791c6..fc4a1dd262e 100644 --- a/docs/api/paddle/audio/functional/mel_frequencies_cn.rst +++ b/docs/api/paddle/audio/functional/mel_frequencies_cn.rst @@ -24,17 +24,4 @@ mel_frequencies 代码示例 ::::::::: -:: - - import paddle - - n_mels = 64 - - f_min = 0.5 - - f_max = 10000 - - htk_flag = True - - paddle_mel_freq = paddle.audio.functional.mel_frequencies( - n_mels, f_min, f_max, htk_flag, 'float64') +COPY-FROM: paddle.audio.functional.mel_frequencies diff --git a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst index c947910bb52..48a2464fa75 100644 --- a/docs/api/paddle/audio/functional/mel_to_hz_cn.rst +++ b/docs/api/paddle/audio/functional/mel_to_hz_cn.rst @@ -21,13 +21,4 @@ mel_to_hz 代码示例 ::::::::: -:: - - import paddle - - val = 3.0 - - htk_flag = True - - mel_paddle_tensor = paddle.audio.functional.mel_to_hz( - paddle.to_tensor(val), htk_flag) +COPY-FROM: paddle.audio.functional.mel_to_hz diff --git a/docs/api/paddle/audio/functional/power_to_db_cn.rst b/docs/api/paddle/audio/functional/power_to_db_cn.rst index 476573ee52c..16a4a1d4a6f 100644 --- a/docs/api/paddle/audio/functional/power_to_db_cn.rst +++ b/docs/api/paddle/audio/functional/power_to_db_cn.rst @@ -23,11 +23,4 @@ power_to_db 代码示例 ::::::::: -:: - - import paddle - - val = 3.0 - - decibel_paddle = paddle.audio.functional.power_to_db( - paddle.to_tensor(val)) +COPY-FROM: paddle.audio.functional.power_to_db