Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
72 changes: 72 additions & 0 deletions docs/api/paddle/audio/Overview_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,72 @@
.. _cn_overview_callbacks:

paddle.audio
---------------------


paddle.audio 目录是飞桨在语音领域的高层 API。具体如下:

- :ref:`音频特征相关 API <about_features>`
- :ref:`音频处理基础函数相关 API <about_functional>`
- :ref:`音频 I/O 相关 API <about_backends>`
- :ref:`语音数据集相关 API <about_datasets>`

.. _about_features:

音频特征相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`LogMelSpectrogram <cn_api_audio_features_LogMelSpectrogram>` ", "计算语音特征 LogMelSpectrogram"
" :ref:`MelSpectrogram <cn_api_audio_features_MelSpectrogram>` ", "计算语音特征 MelSpectrogram"
" :ref:`MFCC <cn_api_audio_features_MFCC>` ", "计算语音特征 MFCC"
" :ref:`Spectrogram <cn_api_audio_features_Spectrogram>` ", "计算语音特征 Spectrogram"

.. _about_functional:

音频处理基础函数相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`compute_fbank_matrix <cn_api_audio_functional_compute_fbank_matrix>` ", "计算 fbank 矩阵"
" :ref:`create_dct <cn_api_audio_functional_create_dct>` ", "计算离散余弦变化矩阵"
" :ref:`fft_frequencies <cn_api_audio_functional_fft_frequencies>` ", "计算离散傅里叶采样频率"
" :ref:`hz_to_mel<cn_api_audio_functional_hz_to_mel>` ", "转换 hz 频率为 mel 频率"
" :ref:`mel_to_hz<cn_api_audio_functional_mel_to_hz>` ", "转换 mel 频率为 hz 频率"
" :ref:`mel_frequencies<cn_api_audio_functional_mel_frequencies>` ", "计算 mel 频率"
" :ref:`power_to_db<cn_api_audio_functional_power_to_db>` ", "转换能量谱为分贝"
" :ref:`get_window<cn_api_audio_functional_get_window>` ", "得到各种窗函数"

.. _about_backends:

音频 I/O 相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`get_current_backend <cn_api_audio_backends_get_current_backend>` ", "获取现在的语音 I/O 后端"
" :ref:`list_available_backends <cn_api_audio_backends_list_available_backends>` ", "获取可设置得语音 I/O 后端"
" :ref:`set_backend <cn_api_audio_backends_set_backend>` ", "设置语音 I/O 后端"
" :ref:`load <cn_api_audio_load>` ", "载入音频"
" :ref:`info <cn_api_audio_info>` ", "查询音频信息"
" :ref:`save <cn_api_audio_save>` ", "保存音频"

.. _about_datasets:

音频数据集相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`TESS <cn_api_audio_datasets_TESS>` ", "TESS 数据集"
" :ref:`ESC50 <cn_api_audio_datasets_ESC50>` ", "ESC50 数据集"
21 changes: 21 additions & 0 deletions docs/api/paddle/audio/backends/get_current_backend_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
.. _cn_api_audio_backends_get_current_backend:

get_current_backend
-------------------------------

.. py:function:: paddle.audio.backends.get_current_backend()

获取现在的处理语音 I/O 的后端名称。

参数
::::::::::::

返回
:::::::::

``str``,语音 I/O 的后端名称。

代码示例
:::::::::

COPY-FROM: paddle.audio.backends.get_current_backend
21 changes: 21 additions & 0 deletions docs/api/paddle/audio/backends/list_available_backends_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
.. _cn_api_audio_backends_list_available_backends:

list_available_backends
-------------------------------

.. py:function:: paddle.audio.backends.list_available_backends()

获取可用的音频 I/O 后端。

参数
::::::::::::

返回
:::::::::

``List[str]``,可用的音频 I/O 后端集合。

代码示例
:::::::::

COPY-FROM: paddle.audio.backends.list_available_backends
22 changes: 22 additions & 0 deletions docs/api/paddle/audio/backends/set_backend_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
.. _cn_api_audio_backends_set_backend:

set_backend
-------------------------------

.. py:function:: paddle.audio.backends.set_backend(backend_name: str)

设置处理语音 I/O 的后端。

参数
::::::::::::

- **backend_name** (str) - 语音 I/O 后端名称,现支持 ``'wave_backend'`` ,如果安装了 paddleaudio >=1.0.2,则也支持 ``'soundfile'`` 。

返回
:::::::::

代码示例
:::::::::

COPY-FROM: paddle.audio.backends.set_backend
27 changes: 27 additions & 0 deletions docs/api/paddle/audio/datasets/ESC50_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,27 @@
.. _cn_api_audio_datasets_ESC50:

ESC50
-------------------------------

.. py:class:: paddle.audio.datasets.ESC50(mode: str = 'train', split: int = 1, feat_type: str = 'raw', archive=None, **kwargs)


`ESC50 <http://dx.doi.org/10.1145/2733373.2806390>`_ 数据集的实现。

参数
:::::::::

- **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。
- **split** (int,可选) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。

返回
:::::::::

:ref:`cn_api_io_cn_Dataset`,ESC50 数据集实例。

代码示例
:::::::::

COPY-FROM: paddle.audio.datasets.ESC50
28 changes: 28 additions & 0 deletions docs/api/paddle/audio/datasets/TESS_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,28 @@
.. _cn_api_audio_datasets_TESS:

TESS
-------------------------------

.. py:class:: paddle.audio.datasets.TESS(mode: str = 'train', n_folds = 5, split = 1, feat_type = 'raw', archive=None, **kwargs)


`TESS <https://tspace.library.utoronto.ca/handle/1807/24487>`_ 数据集的实现。

参数
:::::::::

- **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。
- **n_folds** (int,可选) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。
- **split** (int,可选) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。

返回
:::::::::

:ref:`cn_api_io_cn_Dataset`,TESS 数据集实例。

代码示例
:::::::::

COPY-FROM: paddle.audio.datasets.TESS
40 changes: 40 additions & 0 deletions docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,40 @@
.. _cn_api_audio_features_LogMelSpectrogram:

LogMelSpectrogram
-------------------------------

.. py:class:: paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')

计算给定信号的 log-mel 谱。

参数
::::::::::::

- **sr** (int,可选) - 采样率,默认 22050。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。
- **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。
- **ref_value** (float,可选) - 参照值,如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0。
- **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10。
- **top_db** (float,可选) - log-mel 谱的最大值(db),默认是None。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
:::::::::

计算``LogMelSpectrogram``的可调用对象。

代码示例
:::::::::

COPY-FROM: paddle.audio.features.layers.LogMelSpectrogram
40 changes: 40 additions & 0 deletions docs/api/paddle/audio/features/MFCC_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,40 @@
.. _cn_api_audio_features_MFCC:

MFCC
-------------------------------

.. py:class:: paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')

计算给定信号的 MFCC。

参数
::::::::::::

- **sr** (int,可选) - 采样率,默认 22050。
- **n_mfcc** (int,可选) - mfcc 的维度,默认 40。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。
- **norm** (Union[str, float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。
- **ref_value** (float,可选) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。
- **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10。
- **top_db** (float,可选) - log-mel 谱的最大值(db),默认是 None。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。

返回
:::::::::

计算``MFCC``的可调用对象。

代码示例
:::::::::

COPY-FROM: paddle.audio.features.layers.MFCC
37 changes: 37 additions & 0 deletions docs/api/paddle/audio/features/MelSpectrogram_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,37 @@
.. _cn_api_audio_features_MelSpectrogram:

MelSpectrogram
-------------------------------

.. py:class:: paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32')

求得给定信号的 Mel 谱。

参数
::::::::::::

- **sr** (int,可选) - 采样率,默认 22050。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。
- **norm** (Union[str, float],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
:::::::::

计算``MelSpectrogram``的可调用对象。

代码示例
:::::::::

COPY-FROM: paddle.audio.features.MelSpectrogram
30 changes: 30 additions & 0 deletions docs/api/paddle/audio/features/Spectrogram_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
.. _cn_api_audio_features_Spectrogram:

Spectrogram
-------------------------------

.. py:class:: paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32')

通过给定信号的短时傅里叶变换得到频谱。

参数
::::::::::::

- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是1.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
:::::::::

计算``Spectrogram``的可调用对象.

代码示例
:::::::::
COPY-FROM: paddle.audio.features.Spectrogram
30 changes: 30 additions & 0 deletions docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
.. _cn_api_audio_functional_compute_fbank_matrix:

compute_fbank_matrix
-------------------------------

.. py:function:: paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32')

计算 mel 变换矩阵。

参数
::::::::::::

- **sr** (int) - 采样率。
- **n_fft** (int) - fft bins 的数目。
- **n_mels** (float,可选) - mels bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认是0.0。
- **f_max** (Optional[float],可选) - 最大频率(hz),默认是 None。
- **htk** (bool,可选) - 是否使用 htk 缩放,默认是 False。
- **norm** (Union[str, float],可选) - norm 的类型,默认是'slaney'。
- **dtype** (str,可选) - 返回矩阵的数据类型,默认'float32'。

返回
:::::::::

``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。

代码示例
:::::::::

COPY-FROM: paddle.audio.functional.compute_fbank_matrix
Loading