当前位置:游戏巴士 > 游戏资讯 > 从阿里巴巴的语音辨识工具所犯的错,看要教机器听懂各地中文口音有多难

从阿里巴巴的语音辨识工具所犯的错,看要教机器听懂各地中文口音有多难

时间:2018-03-13 07:51:02

 
 

马云讲话带有杭州腔,不过这不是问题,因为阿里显然有针对创办人的杭州腔进行校准过。整场演讲下来准确率在95%以上,整个系统会根据前后文进行自动校正纠错。技术已经算相当不错,不过其中还是发生了一些意外:

1)马云说“nationally”被解读成了“男生弄乱”。马云是英语老师出身,他的发音是相当不错的。不过机器仍然没有根据语义语境识别出夹杂在中文中的英文单词,也显示了当语音辨识再加上多国语音辨识状况变得更加复杂。有趣的是,当字幕翻译与讲话原意发生这种误差的时候,会场的哄笑让马云意识到了什么,看着字幕无声地笑着停顿了五秒钟。

2)马云讲了一句“刚才车省长讲”,被辨识成了“钢材车身钢架”。这个错误说明,遇到一些特定语境中的专有名词组合,比如一个姓与职务的结合,机器识别起来更加困难,甚至会影响上下文语境中其它语义。这是中文这类表意文字的局限所在,各厂商的语音识别产品在面对表意文字时的表现普遍差于表音文字。

3)马云说“B2C 向 C2B”转化的时候,机器只能识别出“B2C”,但错把 C2B 翻译成了“示意图 B”。这是涉及到一个专有名词库丰富程度的问题。包括后面,云速记还能识别出 AlphaGo 等名词,也可能是因为这个单词已经在此之前就加入到了专有名词库里。

4)说数字“几十亿”的时候,字幕翻译成了“几 1000000000”。凡是涉及到数字的情况,云速记一律选择用阿拉伯数字呈现,这或许不算是什么大问题,毕竟也算是准确的辨识出来了,不过会给看字幕的观众带来不小的认知困难。

有意思的是,马云的杭州腔演讲结束之后,下一个上场的是鸿海董事长郭台铭。为了配合云速记,郭台铭还特意放慢了语速,以便更好地被机器识别。但随后不知出于何种考虑,工作人员关闭了郭台铭的字幕。

机器也需要多多学习才能进步

不过,上面这些错误的范例虽然看来很可笑,但并不表示这个技术不成熟。如果我们仔细想想,就算是我们人类,听到了带有杭州腔的马云讲话,也不见得能够全部理解并且抄写出百分之百准确度的文字。

之前我们采访过在中文语音辨识有专门技术,也是Cortana语音辨识中文部分早期参与者的微软研究院首席研究员暨学术合作部总经理王冠三博士,询问过关于英文语音辨识与中文语音辨识的问题。提到中文语音辨识比英文语音辨识的难度更高的问题,是否是基于中文本身比英文还要复杂,王冠三博士表示早期来讲是如此,但是到了现在,其实不管哪一种语言,语音辨识技术本身其实都不是什么大问题,问题是在于学习的部分。

他表示不管哪一种语言,都需要透过大量的资料来进行学习,才能够进行后续的纠错,提高辨识的成功率。那么,这些大量的语音资料又要从何而来?在这一点,西方国家就有先天的优势。

因为现在美国的电视都带有数位字幕,声音与字幕档案是分开的,他们每天都可以透过一天二十四小时,全天数百个频道的节目来训练机器去进行学习,因此学习的速度相对来说是非常快的。但是其他国家,包括中文语系的国家,就缺乏了这种优势。会有数据量不够的问题。如果再往下细分到各种腔调,难度当然也就更高了。

资料来源:pingwest

推荐新闻

更多»

新游动态

更多»

游戏视频

更多»

辅助插件