声学特征 ivector及其kaldi实现

提取流程

  1. UBM
    universal background model[1]
    使用GMM建模,UBM的训练通过EM算法完成,有两种方法:
    • 所有的数据训练出来一个UBM,需要保证训练数据的均衡
    • 训练多个UBM,然后合在一起,比如根据性别分成两个,这样的话可以更有效的利用非均衡数据以及控制最后的UBM。
  2. supervector

使用MAP adaptation对UBM的高斯进行线性插值,获得speaker相关的GMM… 更多... “声学特征 ivector及其kaldi实现”

Linux 重置终端

有时候,程序输出了一些奇怪的字符,导致终端出现了和奇怪的行为,例如,

  • 敲回车,不会出现转行
  • 输入字符,不会出现回显

这个时候,最简单的方法就是关掉这个终端,然后重新开一个.但是如果这个比如说你已经做了一些环境变量的设置,一旦关闭就需要重新设置,这个时候你就需要重置终端了.

有2个命令可以做到

  • reset
  • tset

这2个命令都是重新初始化终端,可以使用

man reset

来查看他们的功能.

vim列出所有的函数

这篇文章中我和大家共享vim列出所有的函数.

主要要有2种方法.

  • 使用taglist插件
  • 使用命令

使用taglist插件

taglist插件请参看官网.

安装taglist

  1. 下载解压
    从上面提供的网站下载taglist.zip文件,然后解压到 $HOME/.vim文件夹下面, 完成这个步骤后会得到
  • plugin/taglist.vim
  • doc/taglist.txt
  1. helptags
    进入到$HOME/.vim/doc或者
更多... “vim列出所有的函数”

ASR数据集

OPENSLR提供的免费的语言和语音的数据,以及跟语音识别有关的软件.

Librispeech

语言:English
大小:超过100G
时长:960 – 官方写的是1000小时
采样率:16kHz
Link:http://www.openslr.org/12

Tedlium3

语言:English
大小:54G
时长:452小时
声道: 1
采样率: 16kHz
精度: 16bit
Sample Encoding: 16-b… 更多... “ASR数据集”