假如机器会说话之 "全球通"

文字转语音功能(Text-To-Speech,简称TTS)在当今市场上越发广泛应用,如今的用户对于更仿真、更悦耳的TTS引擎有着极高的需求。因此,基于AI技术而且可高度定制的TTS引擎应运而生。它们听起来不像机器人;它们有着和人类一样的音高、语速和发音变化,让我们感觉就像在和真人对话一样。

Illustration of a bot call agent addressing calls

在这个云技术和人工智能的时代,在人机互动的过程中,机器人说话不能再像先前一般刻板,而应该更向真人靠拢。

文字转语音功能(Text-To-Speech,简称TTS)在当今市场上越来越被广泛应用,如今的用户对于更仿真、更悦耳的TTS引擎有着极高的需求。因此,基于AI技术而且可高度定制的TTS引擎应运而生。它们听起来不像机器人;它们有着和人类一样的音高、语速和发音变化,甚至是口音,让我们感觉如同在与真人对话一样。

通过SSML实现自然的文字转语音效果

语音合成标记语言(SSML)是一种基于XML的标记语言,开发者可利用其控制TTS的输出特性,以匹配我们的说话方式。SSML通常嵌入在VoiceXML脚本中以驱动交互式电话系统,但也可以单独用于创建有声读物,以及类似的语音服务。

基础TTS功能有一个问题,就是它无法根据语境来发音。例如,当输入的文字是PIN码时,比如 "605014",可以读成 "六十万五千零十四",或者 "六、零、五、零、一、四"。因为这是PIN码,所以应该一个数字、一个数字地发音,但基础TTS功能无法区分PIN码和代表数量的数字。支持SSML的TTS功能可以让开发者在文字中添加语境,以便系统能够充分理解上下文。

有了支持SSML的TTS,开发者可以进一步对音高、语速、重音、停顿、音量和发音进行编程,使输出的语音符合语境。

常用的主要标签有:

  • <break> — 插入停顿

  • <prosody> — 控制音量、音高和语速

  • <lang> — 表明短语或单词所属的语言

  • <say-as> — 表明文字应该如何解读

SSML还支持动态范围压缩、耳语声和音轨长度,使用户体验得到进一步优化。

现在,某些 Voice API 内包含支持SSML的TTS功能,能够帮助中国企业触达更多全球用户,提供更好的用户体验,并实现语音通信的高度自动化,从而大幅削减成本。

46种语言,200种口音

对于用户群体遍布全球的中国出海企业来说,为用户提供多语言的支持和沟通必不可少。支持更多语言则意味着更高的国际触达率和更好的用户体验。

短信消息和营销邮件的吸引力不如语音电话,但同时,雇佣电话营销员工的相关成本非常高昂。在SSML技术的配合支持下,TTS解决了这个问题。它帮助企业在进行推式营销和电话回访时,实现不同语言和口音的自动化通信,能够完美匹配品牌的语调和风格。

包含TTS功能的 Voice API 支持全球46种语言和200多种口音,确保企业在与用户交流时使用他们的母语和口音。这些语言和口音覆盖约45亿人口,包含普通话、阿拉伯语、英语、西班牙语、印地语、法语和丹麦语等最常用语言。当SSML与母语支持结合使用时,通话效果与人类无异,用户会感觉像是真人正在电话的另一头与他们通话。

虽然TTS可以满足大多数的语音通信需求,但有些时候,真人语音也必不可少。此时,TTS允许企业在通话过程中播放真人录音,实现工作效率最大化。

Voice API 与商务工具集成,让中国出海企业可以通过市场营销扩大受众范围,或借助电话营销传播信息,提供交互式语音应答(IVR)反馈,以及自动化的电话安全验证和通知服务。

总结

显然,声音机械刻板的基础TTS已经无法提供优质用户体验。利用TTS实现通信自动化,可以大幅降低成本和提高工作效率。服务全球用户群体的企业,可以利用 Vonage Voice API 提供的全球语言支持来实现这一目标。

通过支持SSML的TTS,企业可以克服基础TTS功能的局限性,实现音高、语速和发音方面的定制化,也可以为文字添加语境。最新的TTS引擎支持超过40种语言和200种口音,与SSML结合使用时,企业可以为用户提供无与伦比、发声自然的语音通话体验。 

Deskphone with Vonage logo

Fale com um especialista.