语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS 技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
概述
语音合成是利用电子计算机和一些专门装置模拟人,制造语音的技术。
专业技术
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
TTS 结构
语言处理
在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析,使计算机对输入的文本能完全理解,并给出后两部分所需要的各种发音提示。
韵律处理
为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。
声学处理
根据前两部分处理结果的要求输出语音,即合成语音。
历史
语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。
参数合成
在语音合成技术的发展中,早期的研究主要是采用参数合成方法。值得提及的是 Holmes 的并联共振峰合成器(1973)和 Klatt 的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国 DEC 公司的 DECtalk(1987)。但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。
波形拼接
自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初,基于 PSOLA 技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于 LPC 方法或共振峰合成器的文语合成系统的自然度要高,并且基于 PSOLA 方法的合成器结构简单易于实时实现,有很大的商用前景。
国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC 合成至应用 PSOLA 技术的过程。在国家 863 计划,国家自然科学基金委,国家攻关计划,中国科学院有关项目等支持下,联想佳音(1995);清华大学的 TH_SPEECH (1993);中国科技大学的 KDTALK(1995)等系统。这些系统基本上都是采用基于 PSOLA 方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场。
合成方法
系统概念
一种语音合成系统,其包括:分割单元,其被配置成将对应于目标语音的音位串分割为多个节段,来产生第一节段序列;
选择单元,其被配置成基于第一节段序列通过组合多个语音单元产生对应于第一节段序列的多个第一语音单元串,并从所述多个第一语音单元串中选择一个语音单元串;和连接单元,其被配置成连接包含在所选择语音单元串中的多个语音单元,以产生合成语音,选择单元包括检索单元,其被配置成反复实施第一处理和第二处理,该第一处理基于对应于第二节段序列的最多 W 个(W 为预定值)第二语音单元串产生对应于第三节段序列的多个第三语音单元串,所述第二节段序列作为第一节段序列中的部分序列,所述第三节段序列作为通过将节段添加给第二节段序列而获得的部分序列,第二处理从所述多个第三语音单元串中选择最多 W 个第三语音单元串,第一计算单元,其被配置成计算所述多个第三语音单元串中每个的总成本,第二计算单元,其被配置成基于涉及语音单元数据获取速度的限制来为所述多个第三语音单元串中的每个计算对应于总成本的惩罚系数,其中惩罚系数依赖于接近所述限制的程度,和第三计算单元,其被配置成通过使用惩罚系数修正总成本来计算所述多个第三语音单元串中每个的估计值,其中检索单元基于所述多个第三语音单元串中每个的估计值从所述多个第三语音单元串中选择最多 W 个第三语音单元串。
共振峰
语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。
音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。
合成技术
LPC
波形拼接技术的发展与语音的编、解码技术的发展密不可分,其中 LPC 技术(线性预测编码技术)的发展对波形拼接技术产生了巨大的影响。LPC 合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。
LPC 合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外,由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部信息,因而对于单个合成基元来说能够获得很高的自然度。
但是,由于自然语流中的语音和孤立状况下的语音有着极大的区别,如果只是简单地把各个孤立的语音生硬地拼接在一起,其整个语流的质量势必是不太理想的。而 LPC 技术从本质上来说只是一种录音+重放,对于合成整个连续语流 LPC 合成技术的效果是不理想的。因此,LPC 合成技术必须和其他技术相结合,才能明显改善 LPC 合成的质量。
中文语音
作为一种有调语言,汉语韵律特征非常复杂。古汉语的平仄以及现代汉语拼音,对于同样一个音节,出现在不同的环境下,其韵律参数都是各不相同的。用有限的存储单元存储基本汉语基本语音单元,进而从有限的存储单元中合成出无限词汇,组成连续汉语语句。必须在一定的韵律规则下对音库单元的韵律参数进行调整,以得到符合当前语言环境的语音库单元。语音合成器用来完成这种功能。
中文语音合成系统在 DSP 下实现时,除清晰度,能懂度和自然度外,还要求合成算法具有较低的运算复杂度,尽量小的语音库以减少对有限存储空间的占用程度。