
语言识别模块对于中大词汇量的语音识别系统尤为重要。当分类出现错误时,可以根据语言模型、语法结构、语义进行判断和纠正,尤其是一些同音字只能通过语境结构来确定。语言学理论包括语言的语义结构、语法规则和数学描述模型。目前比较成功的语言模型通常是统计语法语言模型和基于正则语法结构的命令语言模型。语法结构可以限制不同单词之间的相互联系,缩小识别系统的搜索空间,有利于提高系统的识别率。
一个完整的基于统计的语音识别系统可以大致分为三个部分:
(1)语音信号预处理和特征提取;
(2)声学模型和模式匹配;
(3)语言模型和语言处理选择识别单元是语音识别研究的第一步。语音识别单元有三种:单词(句子)、音节和音素。选择哪一个,要看具体的研究任务。
单词(句子)单元广泛应用于中小词汇量的语音识别系统,但由于模型库过大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求,不适用于大词汇量系统。
音节单位在汉语语音识别中比较常见,主要是因为汉语是单音节语言,而英语是多音节语言。汉语虽然有1300个左右的音节,但是如果不考虑声调的话,大概有408个无调性音节,比较少。因此,对于中大词汇量的汉语语音识别系统来说,以音节为识别单位基本上是可行的。
音素单元曾经是英语语音识别研究中常见的,但目前中大词汇量的汉语语音识别系统也越来越多地被使用。原因是汉语音节只由声母(含22个零声母)和韵母(共28个)组成,声母的声学特征差异较大。在实际应用中,往往根据元音的不同,将声母形成精炼的声母,增加了模型的数量,但提高了区分易混淆音节的能力。由于共发音的影响,音位单元是不稳定的,如何获得稳定的音位单元还有待研究。
语音识别的一个基本问题是特征的合理选择。特征参数提取的目的是对语音信号进行分析和处理,去除与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩比在10到100之间。语音信号包含很多不同的信息,提取哪些信息,用什么方式提取,需要综合考虑各种因素,比如成本、性能、响应时间、计算量等等。非特定人语音识别系统一般侧重于提取反映语义的特征参数,并试图去除说话人的个人信息;而特定人语音识别系统希望提取出反映语义的特征参数,同时也尽可能包含说话人的个人信息。
线性预测(LP)分析技术是目前广泛使用的特征参数提取技术,很多成功的应用系统都采用基于LP技术提取的倒谱参数。而线性预测模型是纯数学模型,没有考虑人类听觉系统的语音处理特性。
有研究者尝试将小波分析技术应用于特征提取,但性能目前难以与上述技术相提并论,有待进一步研究。声学模型通常通过用训练算法训练所获得的语音特征来生成。在识别中,将输入的语音特征与声学模型(模式)进行匹配和比较,以获得最佳识别结果。
声学模型是识别系统的底层模型,是语音识别系统中最关键的部分。声学模型的目的是提供一种有效的方法来计算语音的特征向量序列与每个发音模板之间的距离。声学模型的设计与语言发音的特点密切相关。声学模型(单词发音模型、半音节模型或音素模型)的单元大小对语音训练数据的大小、系统识别率和灵活性有很大的影响。识别单元的大小必须根据不同语言的特征和识别系统的词汇来确定。
以中文为例:
汉语按音素的发音特点分为辅音、单元音、复合元音和复合鼻音尾,按音节结构分为声母和韵母。音素形成声母或韵母。有时,含有声调的元音称为声调元音。由单元音或由声母和韵母拼音成音节。汉语中的音节是一个汉语词的音,即音节词。词由音节词构成,最后句子由词构成。
汉语有22个声母,包括零声母和38个韵母。按音素分类,汉语辅音22个,单元音13个,复合元音13个,复合鼻音尾16个。
目前常用的声学模型基元是元音、音节或单词,根据不同的实现目的选择不同的基元。汉语加语气词有412个音节,包括轻声字和1282个带声调的音节字。因此,在小词汇量的孤立词语音识别中,经常使用单词作为基元,在大词汇量的语音识别中,经常使用音节或元音,在连续语音识别中,由于协同发音的影响,经常使用元音。
HMM模型(N,M,,A,B)常用于基于统计的语音识别模块。与HMM模型相关的相关理论包括模型结构选择、模型初始化、模型参数重估以及相应的识别算法。语言模块包括由语音识别命令组成的语法网络或由统计方法组成的语言模型,语言处理可以进行语法和语义分析。
回顾唐子红









