语音识别+歌声合成,思必驰的新产品想让普通人“读诗成曲”
在小年夜,中央电视台《经典咏流传》第二季节目中出现了一款“读诗成曲”的在线互动小工具,用户仅需要朗读一段诗词,就可以听到用自己声音演唱的经典诗词唱段。那这是怎么实现的呢?
原来,“读诗成曲”的背后是思必驰提供的个性化歌声合成算法。歌声合成技术是语音合成(TTS,即 Text to Speech)的衍生品,其关键区别在于韵律预测模型不同。在普通TTS系统中,通常有个韵律模型来根据句子的内容和语调环境预测每个音素(音节)的时长和音高曲线。在歌声合成中,这个韵律模型则更换成由乐谱来预测每个音素(音节)的时长和音高的歌曲韵律模型。最终的生成过程仍然跟语音合成类似,将韵律参数和频谱参数结合,生成歌声。
在“读诗成曲”中,韵律预测模型可以使得机器根据人说话的语调合成歌曲,且根据唱段的韵律和节奏调整音调,这又是如何实现的呢? 思必驰首席科学家初敏博士告诉36氪:韵律方面,思必驰在原有歌曲韵律模型的基础上增加了个性化学习技术,结合曲库和名曲唱段的特征生成相应的韵律曲线,使歌曲韵律特征尽量接近名曲唱段的特点;在语调方面,思必驰应用了声学模型的个性化学习技术,使得生成的频谱参数尽量接近用户的声音,通过将接近用户的频谱参数和接近名曲唱段的韵律参数结合,就能生成用户“原声”唱出的“经典”曲调了。
36氪注意到,这并非思必驰首次将个性化歌声合成技术运用于泛娱乐领域,此前在央视节目《机智过人》中,思必驰团队的“小驰”机器人就曾用撒贝南的声音演唱过《好久不见》。不同于以往,此次“读诗成曲”则在曲目和参与度上更为开放,支持任何用户从既定曲库中自选歌曲,曲库主要来自节目第一季、第二季嘉宾的演唱曲目。
近两年,语音合成技术进入商业落地加速期,除BAT大厂纷纷着眼外,此前36氪也曾报道过标贝科技等创业公司。除了在泛娱乐领域布局,思必驰又会如何将语音合成技术商业落地呢?据初敏博士透露,思必驰更多会将语音合成技术与语音识别、口语理解等算法配套,为泛物联网领域产品提供全链路对话交互方案。
具体来说,思必驰当前的业务围绕四个AI进行整体布局:AIOT、AI芯片、AIBOT、AI生态。AIOT业务在泛物联网领域(包括智能车载、智能家居、智能玩具/机器人、智能手机等)提供软件、软硬一体化、Turnkey一站式等多样化方案。在车联网后装、智能音箱、儿童平板/故事机、知识机器人等领域市场占有率均第一,在汽车前装、电视/白电、智能客服等重点领域市场增速领先。未来,思必驰将以“云+芯”战略方向为主,整合智能终端方案能力与全渠道智慧服务能力,形成All In One解决方案,进入酒店、地产、物流、养老、医疗、教育、安全、社区等更多行业。
据悉,在语音合成领域,目前思必驰已可以提供标准男女声、童声、名人合成音等,在最新推出的DUI平台Voice Shop中,提供100 特色的高自然度合成音,并为不同厂商提供个性化定制服务打造voice-IP。
————
我是郑铟,36氪超人学院创始学员,关注NLP、AR/VR、物联网、边缘计算、半导体,项目交流请加微信zhengbaobao097825,注明公司、职位、姓名。
超人学院相信早期生态推动社会变革,使命是为早期生态培养领袖人才,详情请戳36氪想要为进入创投圈的年轻人做一所“超人学院”,你来不来
相关文章
- 中国移动联通电信停止支持eSIM服务 运营商esim一号双终端最新进展消息! 还会恢复吗?
- 华为新手机最新款2023即将新发布上市5G公认最好的折叠手机价格参数
- 抖音里的商城购物车怎么突然没有了?
- 苹果iPhone总销量公布:共卖出15亿台,卖得最好是哪一款?
- 华为首款5G折叠屏手机什么时候发布的 5G折叠屏手机详细配置参数处理器一览 手机笔记本双形态!
- 三星S10什么时候正式发布价格是多少钱?S10配置参数处理器屏幕外观详细分享 挖孔屏+顶尖屏幕,价格大部分人无法接受!
- 华为5G折叠屏手机什么时候在巴展发布价格是多少钱?5G折叠屏手机配置参数处理器详细分享
- 小米9和小米6很像,米9和米6的设计师是同一个人吗?似乎对米9的颜值多了一丝期待
- 2022年新低价荣耀Magic2乞丐版值得买入手吗?配置参数处理器怎么样
- 神舟RTX2060新品会在开学换新季迎来史上最低价吗?神舟RTX2060冰点价攻略