百度“语音接口”神秘在哪?

27.02.2016  11:29

  美国权威科技期刊《麻省理工技术评论》近日评选出了“2016年十大突破技术”,百度的深度语音识别系统(Deep Speech2)名列榜单。那么,百度“语音接口”到底是什么鬼?怎么能够入选?和咱们平时用的手机、门禁等语音系统有何区别?未来会用在什么领域?将可能带来什么影响?北京青年报就此采访了百度相关部门。

   Apple Pay曾入选“突破技术”

  今年,除了百度的语音接口,今年评选的十大突破技术还包括免疫工程、精确编辑植物基因、DNA商店、太阳能电池工厂、特斯拉自动驾驶、可回收火箭、空中取电、知识分享机器人和slack通信软件。MIT认为,在过去的一年里,这十项技术均已达到或者即将达到一个里程碑式的阶段。

  不妨来看看麻省理工“突破技术”榜单是什么。公开信息显示,《麻省理工科技评论》对“突破技术”的定义非常简单,那就是“能够给人们带来高质量的运用科技的解决方案”。《麻省理工科技评论》创刊于1899年,由麻省理工学院(MIT)主办,是世界上历史最悠久、影响力最大的技术商业类杂志。自2001年起,该杂志每年遴选并公布10项即将对人们生活和工作产生深远影响的“突破技术”。例如,刚刚在中国推出的Apple Pay曾进入去年的榜单。

   百度“语音接口”缘何入选

  百度首席科学家吴恩达告诉北青报记者,2014年年底,百度的首席科学家吴恩达及其团队发布了第一代深度语音识别系统Deep Speech。据了解,深度语音识别系统在嘈杂环境中的表现尤为突出,识别正确率超过80%,超过了苹果、谷歌近10个百分点,在安静的环境中准确率则超过95%。去年年底,百度又推出了新一代深度语音识别系统,该系统可以准确地识别英语和汉语,经过简单学习后,还可以处理各种方言和口音。

  吴恩达介绍,百度的语音识别技术采用了“深度学习”这一人工智能的分支技术。深度学习是利用软件系统,以比较原始的形式模仿人类大脑皮层中的神经元活动,进而对外界的声音、图像和其他数据进行识别,从而大幅提升了识别效率。此外,“端到端”的处理方式可以省去预处理环节,直接输入音频文件,再通过神经网络输出字符。

   语音识别未来将改变人机交互

  采访汇总,不少业内人士提到,相比于其他文字,通过微型触摸屏输入汉字的过程十分耗时且繁琐,因此,未来中国是语音接口的理想市场。而事实上,除了百度之外,国内的中科院自动化所、科大讯飞、阿里巴巴等单位也都在进行语音识别的研究。

  吴恩达表示,语音有很大的潜力改变人与设备的交互方式,“现在语音识别可能已达到95%的准确度,但很多人没意识到95%的准确度到99%的准确度带来的不是量变是质变,是从你偶尔使用语音变到常常使用。做到99%准确,将彻底改变人与设备的交互”。

  “我发现语音技术正在逐渐成为非常值得信赖的技术,你只需单纯的、想都不用想地使用它”,吴恩达说,“最好的技术往往是看不见的,随着语音识别变得更值得信赖,我希望它可以融入到我们的生活中”。

  百度方面表示,百度正致力于将该语音模型缩小并植入手机等移动设备。“随着物联网的发展,更多的家用设备开始被连接到网络之中,比如电视机、微波炉、温控器等等,而语音指令显然是控制这些设备的最佳方式。”吴恩达说。文/本报记者温婧