无忧商务网,免费信息发布推广平台,您可以 [登陆后台] 或 [免费注册] 无忧商务网 | 企业黄页 | 产品库存 | 供求信息 | 最新报价 | 企业资讯 | 展会信息
黄页信息| 库存信息| 技术服务| 供应信息| 求购信息| 二手信息| 加工信息| 供求库| 报价库| 展会库| 代理信息| 保健| 生活黄页| 食谱| 网络黄页| 水族休闲| 人力HR| 招聘
首页>>生活网>>生活保健>>3C小百科-消费性电子-其他
嵌入式TTS汉语语音系统的设计与实现

  语言是人与人交流信息的一种手段。使计算机、带有人机交互的电器、仪表等能像人一样开口“说话”是科技工作者多年的研究目标。文语转换TTS(Text To Speech)是自动将输入文字转换成语音输出,并尽量使输出的语音效率流畅、自然的一类技术。TTS系统主要需解决两个问题:①文本分析,即语言学分析。该任务是将以文本广度输入的字符串转换成语言学的表述;②语音合成。即根据语言学的内在表述信息合成语音。TTS系统中的语音合成方法分为时域和频域两大类:频域方法主要有LPC参数合成及其振峰合成两种,其实质是在工程上实现语音生成模型,进而在终端特性上模拟发音器官。在目前阶段,频域方法形成的发音尚不自然,且需要的计算量很大,不适宜在低端的嵌入式芯片上使用。波形编辑法是将较短的数字音频段(即合成基元)拼接并进行段音平滑后生成连续语流的方法。这种方法占用的存储空间大,但计算量小、计算速度快,而且合成语音自然度较高,显然比较适合于芯片性能较弱的嵌入式系统方面的应用。
<P align=center><IMG style="WIDTH: 371px; HEIGHT: 216px" height=216 alt=系统原理框图及主要操作流程 hspace=0 src="http://www.dzdqw.com/jishu/UploadFiles_9637/200610/20061010225416208.jpg" width=371 border=0></P>
<P>       采用波形编辑法的嵌入式TTS系统由于成本低、性能完善、自然度高,随着波形修改算法的不断提出以及微处理器和非易失性存储介质功能的不断增强,正日益受到人们的关注。本系统即采用时域波形编辑技术,采集GB2312汉字编码字符集中所有字符发音作为原始材料,通过使用改进的游程编码算法压缩生成可适用于当前Flash存储器的语音库,并采用多重查找表设计及预存储命令字技术有效地加快语音库的寻址速度,在基于Atmel公司的AT89S52单片机上成功实现了一个TTS语音系统,经测试取得了令人满意的效果。该系统应用简便,具有很小的尺寸和很低的功耗及通用的串行接口,可以广泛用于有关的汉语语音应用系统中。<BR><BR> <STRONG>      1 系统原理<BR></STRONG><BR>       图1为系统原理图框图以及主要操作流程。系统采用串行口与外界交互,任何具有标准串口的设备均可与本系统相连。欲发音汉字的国标码(GB码)由串口送入MCU,MCU将其映射为Flash存储器地址表中对应项的地址,然后根据此地址取得对应项中的命令字,由MCU根据该命令字读取该汉字发音对应的语音数据,连续读出语音数据并以游程码解码算法解码后,按照语音采样时的固定速率通过D/A转换和功率放大播放。本文中语音采样速率为11025B/s。为满足应用需求,本文首先构建易于快速解码的语音库,根据特定Flash存储器的存储格式,以快速多查找表寻址及命令字预先存储的方式组织并存储在Flash存储器中,以满足语音播放的实时要求。同样,MCU的代码也要优先考虑速度而牺牲诸如模块化、可读性方面的要求。最后,出于实用性考虑,系统中需加入足够的输入缓冲区支持,以满足一次输入多个流字或整句的要求。<BR><BR> <STRONG>      2 原始语音数据的采集和处理<BR></STRONG><BR>       本系统共采集了1335种发音,内含1306个流字发音,26个英文字母发音及3个停顿音,语音采集卡AD转换整编11025B/s,分辨率8位,样本值域0~255,静默值为80H。原始语音以WAV文件的格式保存在PC机中。</P>
<P align=center> <IMG style="WIDTH: 466px; HEIGHT: 190px" height=190 alt=语音时域波形示例 hspace=0 src="http://www.dzdqw.com/jishu/UploadFiles_9637/200610/20061010225416547.jpg" width=466 border=0></P>
<P><FONT color=#003399></FONT></P>
<P align=left><FONT color=#003399></FONT></P>
<P>       图2是&#8220;哎&#8221;音样本的时域波形。所有的采集样本除具有不同的波形包络外,均具有大体相同的结构,即一个完整的汉字发音均由前后两个静音部分和中间的发音部分组成。静音的采集值绝大多数为80H(一些轻微扰动可视为录音过程中的噪声,但尾音部分要另外处理),因而可将其统一为80H,以提高压缩比。另由图2可见,00H、01H、FFH、FEH这些边缘值的出现概率是很小的,这个特性亦可用于语音的压缩算法中。<BR><BR>       本文根据上述静默值及边缘值的分布特点,提出了一种改进的游程编码用于语音数据的压缩,具体做法是:用00H代表游程压缩起始码,其后是被编码字符,再下一个字节是被编码字符的重复码,如:80 80 80 80 80可以表示为00 80 05。显然,游程长度小于等于3时没有编码的必要,因而不会出现值为00H、01H和02H的重复码。如上所述,在原始语音文件中,00H、01H这些边缘值是基本上不出现的。因为大量出现这些边缘值即意味着语音采集系统的动态范围设置错误。尽管如此,为确保原始语音文件中没有&#8220;多余&#8221;边缘值,需要将语音文件略做处理,将可能存在的00H和01H都改为02H,显然这样的处理并不会影响语音的实际播放效果。处理后的00H、01H即可作为特殊控制字符使用。图3是本文提出的改进流程压缩编码的流程图。编码前,1335种原始语音样本的大小为14978622字节,压缩后为7767112字节,压缩比超过50%。该语音库已经可以装入容量为8M字节的Flash存储器中。<BR><BR>     <STRONG>  3 语音库的存储结构<BR></STRONG><BR>       本文以8Mbit&#215;8位NAND型Flash存储器K9F6408U0B为例,描述本系统语音库的存储结构。<BR></P>
相关资讯
类别浏览
安徽 北京 福建 甘肃 广东 广西 贵州 海南 河北 河南 黑龙江 湖北 湖南 吉林 江苏 宁夏 青海 山东 山西 陕西 上海 四川 天津 新疆 西藏 云南 浙江 重庆 辽宁 江西 内蒙古
无忧商务网 版权所有 Copyright © 2020.6 www.cn5135.com All Rights Reserved. 湘ICP备12008603号
本站所有产品都是会员自行发布,所有信息都有对方的企业名片和联系方式,如果您需要咨询产品具体参数和细节,请直接联系和咨询厂商,谢谢。
行业子站: 机械 库存 建材 物流 礼品 能源 农业 汽摩 食品 通讯 五金 玩具 矿产 印刷 休闲 服务 服装 化工 环保 电子 纺织 电工 电脑 电器 办公 安全 包装 仪器 家居