无名阁,只为技术而生。流水不争先,争的是滔滔不绝。

ASR 语音识别 声学特征提取如何实现?基本原理是什么?相比于传统智能技术它有哪些优缺点?有哪些开源技术框架支持?哪些编程语言可以支持开发?基本开发流程分享(图文详解1)

AIGC Micheal 1年前 (2023-12-26) 219次浏览 已收录 扫描二维码
文章目录[隐藏]

ASR 语音识别 声学特征提取如何实现?基本原理是什么?相比于传统智能技术它有哪些优缺点?有哪些开源技术框架支持?哪些编程语言可以支持开发?基本开发流程分享

声学特征提取的基本原理

语音识别中的声学特征提取是指从语音信号中提取出能够代表语音内容的特征,这些特征可以被用于训练语音识别模型。声学特征提取的基本原理是将语音信号分割成短时帧,然后从每帧信号中提取出特征。常用的声学特征包括梅尔倒谱系数(MFCC)、线性预测系数(LPC)和倒谱系数(CC)。

梅尔倒谱系数(MFCC)

MFCC是语音识别中最常用的声学特征。MFCC的提取过程如下:

  1. 将语音信号分割成短时帧,每帧长度通常为20-30毫秒,帧移为10-15毫秒。
  2. 对每帧信号进行加窗,常用的窗函数是汉明窗。
  3. 将加窗后的信号进行快速傅里叶变换(FFT),得到频谱。
  4. 将频谱映射到梅尔刻度。梅尔刻度是一种非线性的频率刻度,它与人类听觉系统的特性相符。
  5. 对梅尔频谱进行倒谱变换,得到MFCC。

线性预测系数(LPC)

LPC是另一种常用的声学特征。LPC的提取过程如下:

  1. 将语音信号分割成短时帧,每帧长度通常为20-30毫秒,帧移为10-15毫秒。
  2. 对每帧信号进行加窗,常用的窗函数是汉明窗。
  3. 将加窗后的信号进行自相关分析,得到自相关函数。
  4. 利用自相关函数估计LPC。LPC是一个由p个系数组成的向量,p通常为10-20。

倒谱系数(CC)

CC是另一种常用的声学特征。CC的提取过程如下:

  1. 将语音信号分割成短时帧,每帧长度通常为20-30毫秒,帧移为10-15毫秒。
  2. 对每帧信号进行加窗,常用的窗函数是汉明窗。
  3. 将加窗后的信号进行快速傅里叶变换(FFT),得到频谱。
  4. 对频谱取对数,得到对数谱。
  5. 对对数谱进行倒谱变换,得到CC。

声学特征提取的优缺点

声学特征提取相比于传统智能技术具有以下优点:

  • 鲁棒性强:声学特征提取对噪声和失真具有较强的鲁棒性。
  • 实时性好:声学特征提取可以实时进行,这使得语音识别系统能够实时地识别语音。
  • 准确率高:声学特征提取可以提取出能够代表语音内容的特征,这使得语音识别系统的准确率很高。

声学特征提取也存在一些缺点:

  • 计算量大:声学特征提取需要进行大量的计算,这使得语音识别系统的计算量很大。
  • 存储空间大:声学特征需要存储大量的空间,这使得语音识别系统的存储空间很大。
点击展开
喜欢 (0)
[]
分享 (0)
关于作者:
流水不争先,争的是滔滔不绝