语音合成技术
专业班级:电子本083 姓名:胡欢水 学号:08010402
摘要:随着社会的发展和科学技术的进步,人类已跨入信息时代,人们在不断寻求灵活、方便、快捷的信息交换方式。而语音是众多信息载体中具有最大信息容量、最高智能水平的信号之一,作为信息交换的一种方式——语音具有其独特的优越性。语音合成技术是新一代智能计算机的一项重要标志,是计算机智能接口的重要组成部分。它能为我们提供基于自然语言的人机通讯方式,大大改善人机界面,与语音识别相结合,就能达到人机对话的目的。
本文对语音合成,语音合成技术的方法和TTS的基本结构进行了介绍,列举了一些语音合成技术在生活中的实际应用,并对语音合成技术进行了展望。
关键词:语音合成技术;语音合成
一 语音合成简介
语音合成,又称文语转换(text to speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,解决的主要问题就是如何将文字信息转化为可听的声音信息[。传统的声音回放设备(系统),是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。 一个语音合成系统。按其合成方式主要分为有限词汇和无限词汇的合成,按其使用目的和约束条件等可分为各种合成方法,最简单的是录音编辑方式,其次是波形编码方式,再次是参数编码方式,最后是按规则合成方式[1]。
二 语音合成技术的方法
语音合成技术可分为参数合成和波形拼接两种方法。
早期的研究主要是采用参数合成方法,它是计算发音器官的参数,能对人的发音进行直接模拟。由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。因此后来又产生了基于LPC、ISP等声学参数的合成系统。
自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高。
在文献[2]中,作者认为目前的语音合成技术主要是基于共振峰的参数合成技术和基于PSOLA算法的波形拼接合成技术。这两种技术各有所长,共振峰技术比较成熟,有大量的研究成果可以利用,而PSOLA技术则是比较新的技术,具有良好的发展前景。
三 语音合成技术的缺陷
在文献[3][4]作者认为语音合成技术发展至今,存在着一些缺点,主要体现在以下方面:
①与可懂度直接相关的发音质量,包括音质缺陷、多音字、轻声、变调、数字串等方面的问题。
②与自然度密切相关的“分词断句”错误,反映了韵律结构预测方面的问题。
③合成语音音色单一、语调缺少变化、缺乏表现能力,直接原因是由于系统中没有轻重音、功能语调、发音风格等方面的控制。
这些问题的存在表明:目前的语音合成技术还处在“表音”层次,而且在这一层次系统性能还有提升的空间;另外,系统还不具备属于更高层次的“表情达意”的能力,还不能通过合成语音准确、生动地传递语义信息[5]。
四 TTS的基本结构
在文献[6][7][8]中作者将TTS的基本结构分为语言学处理、韵律处理和声学处理三大模块,并对三大模块进行了介绍。
其基本工作原理是:事先将全部的汉语音节进行录音,形成音频数据,以音库的形式存放在计算机的磁盘上,以供调用。然后用键盘、光电扫描等输人手段,形成ASCII文本文件(最新的系统也允许为WORD文件、INTERNET文档)。系统运行时,先将ASCII文本文件进行语言学处理、韵律处理,得到语流控制参数。然后读取音库,从音库中得到对应的音频数据,再经声学处理形成连续的语声流,即完成了从文本到语音的转换过程。
其结构如图1所示:
图1 TTS的基本结构图
4.1语言学处理
语言学处理在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程,使计算机对输入的文本能完全理解并给出后两部分所需的各种发音提示。
其工作过程可以分为三个主要步骤:
(1)文本规整
将输入的文本规范化。在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。
(2)词的切分
分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。
(3)语法分析和语义分析
根据文本的结构、组成和不同位置上出现的标点符号,确定语气的变换以及不同音的轻重方式。最终,文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。
4.2韵律处理
为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,昕起来更加自然。韵律处理有基于规则和数据驱动两种方法。
4.3声学处理
根据前两部分处理结果的要求输出语音,即合成语音。
五 常用语音合成技术的方法
语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。目前,常用的语音合成方法主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA声道模型技术[9][10]。
(1)共振峰合成:以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。
(2)LPC合成:LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。
(3)PSOLA拼接合成:PSOLA技术着眼于对语音信号超时段特征的控制,如基频、时长、音强等的控制。在拼接语音波形片断之前,首先根据上下文的要求,用PSOLA算法对拼接单元的韵律特征进行调整,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度。
(4)LMA声道模型:一种基于LMA声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点,同时又具有比PSOLA算法更高的合成音质。
六 在生活中的实际应用
语音技术的研究已有多年的历史。应用语音合成技术的产品也有许多种。
在文献[11][12]中,作者认为可按其应用范围,归纳为下列几类:
(1)语音留言机。采用语音合成中的语音存储与重放技术,其存储或重放的语音持续时间有16秒、40秒、128秒等多种。这类语音留言机目前都是通用型的,可与各种应用领域相结合得到进一步扩展。
(2)电脑报站机。应用于公共交通汽车、电车以及地铁列车等电脑报站机也采用语音合成技术.其将语音输入计算机后存于数字存储器中(经过数码压缩处理),使用时在软件的管理下根据需要把数字合成语音输出,这种技术也属于语音存储与重放技术。
(3)电脑语音报警器。在冶金、化工、石油、电力等的自动控制系统中广泛使用闪光报警器,配合以一定的音响警报。如冷却水温、汽油储存量及各种灯光信号的不正常状态,用汉语语音报送出来。它可以延长设备使用寿命,保障安全和减轻人员的负担。 无线电防盗、防火报警则能根据单位或家庭中的盗窃、火灾等情况用明确的语音发出报警。
(4)文本阅读系统。在计算机辅助教学、文稿校对等方面,需要将存在打出的文字或已打出的文字稿件,或在屏幕上显示的文字,用语音读出来,这就要用文本阅读系统,它采用线性预测语音合成技术。 一般来说,这种场合语言库较大,用时域波形编码无法满足要求,因此采用数码压缩比大的线性预测编码。这种系统的价格较高,不宜应用于留言、报警等语音输出场合。
七 语音合成技术的前景
语音合成技术是语音技术中十分实用的一项重要技术,它能解决人民大众的实际需求,能够深入到社会的各行各业中去。在文献[13]中作者认为通过运用该技术,人们的日常生活会变得更加便捷、舒适。例如用语音对门、车、家电进行控制,在不看手机屏幕的情况下通过语音拨号,汽车驾驶员当其在驾驶过程中通过发出语音指令让计算机执行特定的任务。既增加了安全性,又提高了人们的生活品质。在文献[14][15]中作者认为将语音识别应用于自动翻译,全世界的人们在沟通上将不再有障碍,世界文化交流将迎来一个全新的时代。随着语音技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。
参考文献
[1]林福宗.多媒体技术基础[M].北京:清华大学出版社,2002.
[2]朱民雄,等.计算机语音技术[M].北京:北京航空航天大学出版社,2002.
[3]蔡莲红.语音合成系统综述及其应用[N].计算机世界报,2000,05,20.
[4]陈静,李薇,崔忠伟,刘霞.语音合成技术的研究及其发展[J].中国科技信息,
2007,(14):280-281.
[5]赵力.语音信号处理[M].北京:机械工业出版社,2003,140-210.
[6]姚涵珍,陆文秀.TTS中文语音合成技术的研究与实践[J].
天津科技大学学报,2004,19(1):65-67.
[7]王凯.TTS技术应用探讨[J].贵州大学学报,2000,17(4):504-506.
[8]刘涛,叶振兴,蔡莲红.嵌入式汉语TTS系统的设计与实现[J].
中文信息学报,2004,18(3):54-60.
[9]李远志,李浮斌.语音合成技术在信息服务应用的前景分析[J].现代情报,
2002.(2):106-107.
[10]董国超,寇净磊.语音识别技术及应用综述[J].内蒙古科技与经济,2009,(15):70-71.
[11]谷照燕,在多媒体教学中应用语音识别技术[J],辽宁高职学报,2002,4(2),84-85.
[12]蔡莲红.语音合成系统综述及其应用[N].计算机世界报,2000,03,20(c7).
[13]王仁华.语音合成技术最新研究进展及其应用展望[J].中兴通讯技术,2003,(5):37-39.
[14]陶建华,蔡莲红.计算机语音合成的关键技术及展望[R].北京:清华大学计算机科
学技术系,2001.
[15] H,Fujisaki.Information,Prosody,and Modeling-with Emphasis on the Tonal Features of Speech.in From Traditional Phonology To Modern Speech Processing[M].北京:外语教学与研究出版社.2004,111-128.