ASR数据集

OPENSLR提供的免费的语言和语音的数据,以及跟语音识别有关的软件.

Librispeech

语言:English
大小:超过100G
时长:960 – 官方写的是1000小时
采样率:16kHz
Link:http://www.openslr.org/12

Tedlium3

语言:English
大小:54G
时长:452小时
声道: 1
采样率: 16kHz
精度: 16bit
Sample Encoding: 16-bit Signed Integer PCM
Link:https://www.openslr.org/51/

AISHELL

AISHELL1

语言:中文
时长:178小时
采样率: 16khz
精度:16bit
remark:400人录制,涉及智能家居、无人驾驶、工业生产等11个领域。
Link: https://www.openslr.org/33/

AISHELL2

语言:中文
时长:1000h
采样率: 16khz
精度:16bit
remark: 1911人录制,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。
Link: http://www.aishelltech.com/aishell_2

THCHS-30

语言:中文
时长:30小时
采样率: 16khz
remark: 30人录制,清华大学30小时中文语音库。安静的办公室环境下,通过单个碳粒麦克风录取,文本选取自大容量的新闻。
Link: https://www.openslr.org/18/

ST-CMDS

语言:中文
时长:500小时
采样率: 16khz
remark: 855人录制,全称Free ST Chinese Mandarin Corpus。安静的室内环境下,通过单个碳粒麦克风录取,文本选取网络聊天智能音箱控制等。
Link: https://www.openslr.org/38/

HKUST

语言:中文
时长:200小时
采样率: 16khz
精度:16bit
remark: 中文电话数据集,电话对话,espnet,kaldi里面都有egs
Link: https://www.openslr.org/18/

Fisher English

语言:英文
时长:975小时
采样率: 未知
精度:未知
remark: 5850个对话,每个10分钟. 在kaldi的egs的aspire下面使用就是这个数据集
Link: https://catalog.ldc.upenn.edu/LDC2004T19

收费的数据集

数据堂

https://www.datatang.com/dataset/speech
这个不只是中文的,还有其它语音的,比如西班牙,英语等

    分享到:

Leave a Reply

Your email address will not be published. Required fields are marked *