嵌入式TTS汉语语音系统的设计与实现-无忧生活网

嵌入式TTS汉语语音系统的设计与实现

语言是人与人交流信息的一种手段。使计算机、带有人机交互的电器、仪表等能像人一样开口“说话”是科技工作者多年的研究目标。文语转换TTS（Text To Speech）是自动将输入文字转换成语音输出，并尽量使输出的语音效率流畅、自然的一类技术。TTS系统主要需解决两个问题：①文本分析，即语言学分析。该任务是将以文本广度输入的字符串转换成语言学的表述；②语音合成。即根据语言学的内在表述信息合成语音。TTS系统中的语音合成方法分为时域和频域两大类：频域方法主要有LPC参数合成及其振峰合成两种，其实质是在工程上实现语音生成模型，进而在终端特性上模拟发音器官。在目前阶段，频域方法形成的发音尚不自然，且需要的计算量很大，不适宜在低端的嵌入式芯片上使用。波形编辑法是将较短的数字音频段（即合成基元）拼接并进行段音平滑后生成连续语流的方法。这种方法占用的存储空间大，但计算量小、计算速度快，而且合成语音自然度较高，显然比较适合于芯片性能较弱的嵌入式系统方面的应用。
<IMG style="WIDTH: 371px; HEIGHT: 216px" height=216 alt=系统原理框图及主要操作流程 hspace=0 src="http://www.dzdqw.com/jishu/UploadFiles_9637/200610/20061010225416208.jpg" width=371 border=0>
 采用波形编辑法的嵌入式TTS系统由于成本低、性能完善、自然度高，随着波形修改算法的不断提出以及微处理器和非易失性存储介质功能的不断增强，正日益受到人们的关注。本系统即采用时域波形编辑技术，采集GB2312汉字编码字符集中所有字符发音作为原始材料，通过使用改进的游程编码算法压缩生成可适用于当前Flash存储器的语音库，并采用多重查找表设计及预存储命令字技术有效地加快语音库的寻址速度，在基于Atmel公司的AT89S52单片机上成功实现了一个TTS语音系统，经测试取得了令人满意的效果。该系统应用简便，具有很小的尺寸和很低的功耗及通用的串行接口，可以广泛用于有关的汉语语音应用系统中。 1 系统原理 图1为系统原理图框图以及主要操作流程。系统采用串行口与外界交互，任何具有标准串口的设备均可与本系统相连。欲发音汉字的国标码（GB码）由串口送入MCU，MCU将其映射为Flash存储器地址表中对应项的地址，然后根据此地址取得对应项中的命令字，由MCU根据该命令字读取该汉字发音对应的语音数据，连续读出语音数据并以游程码解码算法解码后，按照语音采样时的固定速率通过D/A转换和功率放大播放。本文中语音采样速率为11025B/s。为满足应用需求，本文首先构建易于快速解码的语音库，根据特定Flash存储器的存储格式，以快速多查找表寻址及命令字预先存储的方式组织并存储在Flash存储器中，以满足语音播放的实时要求。同样，MCU的代码也要优先考虑速度而牺牲诸如模块化、可读性方面的要求。最后，出于实用性考虑，系统中需加入足够的输入缓冲区支持，以满足一次输入多个流字或整句的要求。 2 原始语音数据的采集和处理 本系统共采集了1335种发音，内含1306个流字发音，26个英文字母发音及3个停顿音，语音采集卡AD转换整编11025B/s，分辨率8位，样本值域0～255，静默值为80H。原始语音以WAV文件的格式保存在PC机中。
 <IMG style="WIDTH: 466px; HEIGHT: 190px" height=190 alt=语音时域波形示例 hspace=0 src="http://www.dzdqw.com/jishu/UploadFiles_9637/200610/20061010225416547.jpg" width=466 border=0>


 图2是“哎”音样本的时域波形。所有的采集样本除具有不同的波形包络外，均具有大体相同的结构，即一个完整的汉字发音均由前后两个静音部分和中间的发音部分组成。静音的采集值绝大多数为80H（一些轻微扰动可视为录音过程中的噪声，但尾音部分要另外处理），因而可将其统一为80H，以提高压缩比。另由图2可见，00H、01H、FFH、FEH这些边缘值的出现概率是很小的，这个特性亦可用于语音的压缩算法中。 本文根据上述静默值及边缘值的分布特点，提出了一种改进的游程编码用于语音数据的压缩，具体做法是：用00H代表游程压缩起始码，其后是被编码字符，再下一个字节是被编码字符的重复码，如：80 80 80 80 80可以表示为00 80 05。显然，游程长度小于等于3时没有编码的必要，因而不会出现值为00H、01H和02H的重复码。如上所述，在原始语音文件中，00H、01H这些边缘值是基本上不出现的。因为大量出现这些边缘值即意味着语音采集系统的动态范围设置错误。尽管如此，为确保原始语音文件中没有“多余”边缘值，需要将语音文件略做处理，将可能存在的00H和01H都改为02H，显然这样的处理并不会影响语音的实际播放效果。处理后的00H、01H即可作为特殊控制字符使用。图3是本文提出的改进流程压缩编码的流程图。编码前，1335种原始语音样本的大小为14978622字节，压缩后为7767112字节，压缩比超过50%。该语音库已经可以装入容量为8M字节的Flash存储器中。 3 语音库的存储结构 本文以8Mbit×8位NAND型Flash存储器K9F6408U0B为例，描述本系统语音库的存储结构。

相关资讯

·数字基带处理器AD6900的多媒体应用	·TPMS外置编码存储器式轮胎定位技术的电路实现
·基于Xscale的移动数字电视方案实现	·多核处理器构架的高速JPEG解码算法
·汽车行驶记录仪的抗干扰设计	·脱网版计时消费机的设计
·ETC中具有车型识别功能的车辆检测器设计	·嵌入式MPEG-2远程网络视频监控系统的实现
·低批量手持设备设计：勇敢者的工作	·智能化使汽车更安全
·汽车工业中的虚拟仪器与虚拟试验技术	·IPTV系统中EPG模块的设计与实现
·数字电视编码技术	·基于L64724的卫星解码机顶盒设计
·数字电视条件接收系统	·基于MB90092型的视频监控系统的设计与实现

类别浏览

}婴儿产妇

}老人保健

}病有所依

}死得其所

}穿出自我

}美食天地

}住宿家居

}踏足旅游

}生儿育女

}自娱自乐

}生活小百科

}3C小百科

安徽北京福建甘肃广东广西贵州海南河北河南黑龙江湖北湖南吉林江苏宁夏青海山东山西陕西上海四川天津新疆西藏云南浙江重庆辽宁江西内蒙古

本站所有产品都是会员自行发布，所有信息都有对方的企业名片和联系方式，如果您需要咨询产品具体参数和细节，请直接联系和咨询厂商，谢谢。

行业子站: 机械库存建材物流礼品能源农业汽摩食品通讯五金玩具矿产印刷休闲服务服装化工环保电子纺织电工电脑电器办公安全包装仪器家居