深度进修：语音识别（ASR）的核心文献推荐_语音辨认_模子

文章目录 [+]

语音导航利用了语音识别技能（ASR）

语音识别技能（ASR）是什么？

语音识别技能，也被称为自动语音识别 Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为打算机可读的输入，例如按键、二进制编码或者字符序列。
与说话人识别及说话人确认不同，后者考试测验识别或确认发出语音的说话人而非个中所包含的词汇内容。
语音识别是打算措辞学的跨学科子领域，其开拓方法和技能，使得能够通过打算机识别和翻译口语。
它也被称为自动语音识别（ASR），打算机语音识别或语音到文本（STT）。
它领悟了措辞学，打算机科学和电气工程领域的知识和研究。
（图片来自网络侵删）
语音识别系统须要“机器演习”，比如将文本读入系统
一些语音识别系统须要“机器演习”，个中个体说话者将文本或伶仃的词汇读入系统。
系统剖析人的特定声音并利用它来微调对该人的语音的识别，从而提高准确性。
不该用演习的系统称为“说话者无关” 系统。
利用演习的系统称为“说话者依赖”。
机器要与人实现对话，那就须要实现三步
听懂——理解——回答
对应的便是“耳”、“脑”、“口”的事情，机器要听懂人类说话，就离不开语音识别技能（ASR）。
语音识别的利用场景有哪些？
语音识别已经成为了一种很常见的技能，大家在日常生活中常常会用到：
语音识别的利用场景，比如苹果的Siri
苹果的用户肯定都体验过 Siri ，便是范例的语音识别微信里有一个功能是”笔墨语音转笔墨”，也利用了语音识别最近盛行的智能音箱便是以语音识别为核心的产品比较新款的汽车基本都有语音掌握的功能，这也是语音识别
语音识别技能讲解
语音识别技能拆分下来，紧张可分为“输入——编码——解码——输出 ”4个流程。
个中编码：特色提取
编码：声学模型、措辞模型
语音识别过程：输入——编码——解码——输出
语音识别的核心文献推举
语音识别的核心文献推举来自知网
研究出发点
特色参数模型演习人工神经元网络感知线性预测隐马尔可夫模型语音识别线性预测剖析非特定人语音识别汉语语音识别模式识别
神经元网络的仿照措辞及实在现
研究来源
语音识别声学模型线性预测剖析声学处理听觉模型模式识别困惑度声道模型运用前景特色参数
听觉模型
研究分支
语音识别端点检测隐马尔可夫模型HMM特色提取非特定人DTW研究与实现倒谱系数声学模型
隐马尔可夫模型
研究去脉
语音识别端点检测隐马尔可夫模型HMM特色提取DTW研究与实现声学模型神经网络短时能量
声学模型研究
语音识别ASR的事情事理是什么呢？
首先声音的本身是一种波，就像我们常常用一段段波形来表示音频一样。
声音的本身是一种波
接下来语音识别ASR的四个步骤：
语音识别ASR的四个步骤
给音频进行旗子暗记处理后，便要按帧（毫秒级）拆分，并对拆分出的小段波形按照人耳特色变成多维向量信息将这些帧信息识别成状态（可以理解为中间过程，一种比音素还要小的过程）再将状态组合形成音素（常日3个状态=1个音素）末了将音素组成字词并串连成句。
通过以上步骤，于是，这就可以实现由笔墨转换针言音，也可以由语音转换成笔墨了。

标签：语音识别