场景应用成智能语音决胜关键

18.04.2016  12:56

  柏可林 摄

  谷歌、微软、科大讯飞等科技公司在智能语音方面的带动作用,使得我们在日常生活中已经不乏看到语音技术的应用。虽然触摸屏和键盘仍然是今天人机交互主要媒介,但未来语音交互或可与之平分天下。智能语音的发展将推动人工智能的发展,使我们的生活变得更轻松更美好。

  英语口语考试,你的考官不是人,而是一台计算机,它直接给你打分;一边开车一边对你的车说话下命令,“帮我打电话给妈妈”、“帮我买明天去北京的机票”、“带我去最近的面馆”;躺在病床上,不用动身体,直接开口对空调说“把温度调到26度”。

  语音直接说话下命令,代替按键、触摸屏,是人更自然的体验。语音技术正让机器像人一样用语音交流。

  4月13日,科大讯飞发布公告,预计4月18日复牌交易,目前正在收购北京乐知行教育的股份。科大讯飞正努力从基础技术提供商,转型为应用服务提供商,因为后者利润率远高于前者,而此次收购教育软件公司就是其拓展“语音+教育”的重要一步。

  谷歌美国公司语音技术人员向《国际金融报》记者透露,谷歌正在各项服务中全面融入语音技术。微软的开发者大会提出“对话即平台”(Conversation as Platform)计划,简单说就是“想让你对机器说句话就把事给办了”。微软CEO纳德拉表示,语音指令正成为键盘、触摸屏之后的新一代人机对话方式。

  当下正是转型关键期,各大企业的竞争也从单纯技术水平转变到应用场景的用户,“语音+各个应用场景”成为这百亿市场的制胜关键。

  科大讯飞:从幕后到台前

  科大讯飞自称占中文语音市场70%份额,以其为案例,或许可对这个行业略窥一二。

  科大讯飞董秘江涛透露,目前科大讯飞在企业端和终端消费者端的业务占比分别是80%和20%,公司的目标是今后使这两块比重倒置,此次收购教育软件公司也是其“语音+教育”的重要一步。

  科大讯飞要让终端消费者成为自己主要的用户?而科大讯飞目前的客户还是以政府、国企为主,这家具有国企背景的公司,如何能抓住互联网时代终端消费者的心?

  面对记者的这一提问,科大讯飞并没有给出明确的回答,或许科大讯飞看到了市场未来的大势,但具体怎么落地实施,仍需时日来摸索。

  于是记者试图从其目前技术中,梳理出科大讯飞可能的方向。要具体应用于终端消费者,首先需要确定在什么场景下、谁来用这项服务、用户有哪些需要,因此,服务的场景、用户特征需要首先锁定。换句话说,需要锁定垂直细分领域,再根据这一领域的具体场景配置技术。

  比如,机器自动翻译应用在手机端。科大讯飞称,“随声译”功能达到了大学英语六级水平,一秒钟内能实现中英语音互译。

  据科大讯飞公司介绍,在广东、江苏、上海、重庆、山东等10余省市的中高考英语听说考试中,开始试点用机器当考官,全年累计测试考生数近1000万。此外,用机器来改作文,也已经在安庆、合肥、湖南等地试点应用。

  目前打客服电话需要通过一层层语音提示、按键,能否一次性直接得到想要的答案?“智能客服未来会替换掉50%以上的人工。”科大讯飞公司向《国际金融报》记者表示。安徽(科大讯飞起家的地方)省移动公司目前用科大讯飞的技术,可以基本实现语音直接搜索答案。科大讯飞为中国联通建设的智能语音客服——语音导航系统的试点建设,为其节省了20%以上的人工成本。另外,政府背景的金融机构、国家电网、航空公司、政府机关、医疗机构、广电行业,以及速运行业等主要呼叫中心,正在使用科大讯飞的机器语音应答。

  目前已有31款车在出厂前搭载了科大讯飞的智能语音系统。同时,在政府基础设施建设上,科大讯飞也与江西、广西、吉林等省展开合作。

  《国际金融报》记者还发现,科大讯飞开放云平台、投资创业公司支持创业者,这些都是科大讯飞寻找终端消费者市场的方法。科大讯飞告诉记者:“我们现在每天都在分析云平台上的创业者,有哪些值得我们去投;在看我们产业链的上下游,哪些能跟我们最优势互补。比如在教育中做内容的、做教育应用的等。”

  科大讯飞打算从幕后跳到台前,但这直接把自己变成了客户的竞争对手。一位业内人士向记者坦言,“科大讯飞的八麦技术只自己用,对外只卖五麦,这让客户担心,科大讯飞并没有为客户提供最好的服务。”

  而互联网终端消费者的应用场景,大部分被BAT(百度、阿里、腾讯)等互联网公司占据。于是,语音技术公司直接从基础技术提供商,成为了抢占终端消费者的互联网公司对手,这家从语音技术起家的公司,需要另外开辟BAT并不擅长的终端用户。

  之前,科大讯飞的模式是:提前在技术上布局、积累,等待“风口”到来后爆发。创新工场董事长兼CEO李开复表示:“大部分价值数十亿美元的中国软件公司全都是借助互联网的爆发完成了积累,科大讯飞走的却是一条艰苦的发展之路——他们很早就研发了语音识别的尖端技术,寻找早期的使用者,挖掘出一个当时并不存在的市场。”

  在互联网时代,基础技术提供商的危机在于,无法直接接触终端消费者,而被其他公司层层“剥削”利润,往往容易受到巨头价格战和免费模式的绞杀,这是许多基础技术提供商压力剧增的重要原因,也是科大讯飞不得不转型的关键。

  科大讯飞目前的策略就是,为大部分领域提供底层的技术服务,但是在人机交互(如电视、手机、汽车的应用)、儿童教育领域、国家信息安全传播三大分支领域,跳脱单一的技术提供商角色,提供深化的应用服务。

  全球许多科技公司都有这个特点:靠科技驱动,而对消费者的实际需求缺少切实的充分考量。他们的口号是:在火车出现前,人们只会说,“我想要一匹更快的马”。开创前沿科技的人认为,消费者是被动的,消费者需要被技术引导,而不是“技术大佬”来服务消费者。

  然而,语音技术有点尴尬。它既不被认为是“科技巅峰”技术,也不被认为是消费者普遍的基本需求。高低两头都不占优势。

  不得不正视的问题是,用语音来实现人机对话,是消费者的刚性需求、不得不用吗?在哪些情况下是刚性需求,哪些情况下是锦上添花或玩具?针对记者的这一提问,业内各家公司都没有给出明确回答。“用户最基本的需求还没满足,何况语音这种非刚性需求。”科大讯飞上市前,关注并投资过该公司的一位股权基金董事总经理告诉《国际金融报》记者。

  阿里云的技术人员说:“关键是,你要找到用户真正刚性的需求,而且是用户真正需要,不是你想象的以为别人需要。用户愿意付费或者离不开的应用场景是什么?”

  “出门问问”首席技术官(CTO)雷欣向《国际金融报》记者表示,某些场景下语音确实是刚需,比如开车时不方便接电话、不方便输入文字等。然而,“出门问问”也没有再举出更多语音作为刚需的场景。

  因此,各公司基本都开放了自己的语音云平台,免费提供多项服务,一方面吸引用户提供数据,一方面从中找到语音技术的“用武之地”。

  行业格局:基本都to B

  以后开会时,现场速记就可以由机器自动完成。机器语音识别率可以达到95%左右,远超过人类速记员的速度和准确率。

  不会外语听不懂外国视频?用YouTube的人都知道,不论哪部视频,YouTube可以自动显示其字幕,也可以自动翻译成用户需要的语言。

  不会外语怎么跟外国人打电话?机器可以直接帮你把声音相互翻译成彼此的语言。

  语言是人类区别于动物的重要标志,是人类智力最基本也最高级的体现形式之一,企业正让机器也可以像真人一样机智地执行命令。

  4月13日,百度宣布公司部门重构。百度董事长兼CEO李彦宏宣布,今后他将把人工智能作为自己工作的三大重点之一。人工智能将成为互联网后人类科技新高地,这几乎已成全球共识,但如何切入?智能语音是一些公司选择的切入口。

  语音技术目前主要包括:说话下命令、通过语音判断身份(如银行密码、保险锁、公安刑侦)、需要语音的场合(电话客服、口语考试)的自动服务、语音与文字的互相转化等。而语音识别只是其中最基本的功能。

  起步阶段的语音市场,总量并不大,但《国际金融报》记者发现,该产业在国内只有五六家公司,相比于万亿规模却百舸争流的“红海市场”,该领域每家公司分到的市场空间并不小。

  目前哪些公司在做语音技术?它们有什么区别?

  总体而言,多数公司是整个互联网、物联网的基础技术提供商,基本都是to B(即机构用户)而不是to C(终端消费者)。科大讯飞公司体量最大,多数项目来自政府合作;思必驰、云知声目标市场最接近,都是车载后市场(即出厂后配置的)、家居物品、机器人,其基础技术散在各个垂直细分领域,随客户公司的领域而随时变化;谷歌在中国投资的“出门问问”(约占一成股份),目前产品主要是语音输入的手表。

  值得注意的是,《国际金融报》记者发现,智能语音领域并不是BAT、谷歌、苹果等所谓的巨头最领先,它们针对消费者提供终端应用产品,而不代表其技术最强。“苹果公司的Siri做了这么多年,不还是个玩具吗?”阿里巴巴一位技术人员对《国际金融报》记者说。针对终端消费者的这些互联网公司,基本不对外输出技术,BAT也通过投资创业公司来获取语音技术。

  其中,百度语音达到专业水平,“所有技术全都是百度自己开发。”其技术人员向《国际金融报》记者表示。记者试用了百度医生,只需对手机说“我肚子痛”,百度医生就显示了十几位相关医生的信息供选择。阿里巴巴、腾讯相对较弱,BAT基本把语音作为自己现有产品的附加功能,如阿里基于产品搜索服务电商平台,微软聊天机器人为了得到聊天数据,并没有实际功能。

  如果说过去几十年,全球语音行业的关键瓶颈是识别的准确率等技术问题,那么今天,机器听打比人工速记的准确率更高,下一步语音公司的核心竞争力又在哪?

  阿里云一位技术人员对《国际金融报》记者说,“如果只是语音识别,对错都一目了然,所以你可以给机器数据,反复地训练它。而语音执行命令,就涉及各个场景,需要大量知识库,只要是无法明确量化、对错标准模糊的场景,就很难训练机器,因为它不知道你想让它怎么做。”

  需要特别注意的是,《国际金融报》记者发现,尽管各家公司都号称自己是以语音为切入口的人工智能公司,但语音技术本身严重同质化,若目标细分市场再继续同质化,而缺少各家自己的特色,市场发展可能不会如人们想象的乐观。

  为什么不做to C?第一,不敢直接把客户变成竞争对手;第二,公司体量较小、数据不足、对终端消费者理解不深。用业内的话说,“把终端消费者交给专门做产品的公司,我们专心做to B的软件”。

  科技公司正推动机器不仅能听懂语音的指令,更重要的是能理解、会思考,并帮你解决问题。比如,“帮我买明天去北京的机票”,语音识别非常简单,但要确定起降机场、航空公司、价格、选时间段,而被选择的信息可能是不标准的。机器人相当于人几岁的年龄才能独立完成买机票这项任务呢?以此为例,不少公司正在积极探索类似的应用场景。

  未来趋势:垂直细分

  智能语音产业并不是以大取胜,并非范围铺的越大、叫得越响、效果就越好。一些小型创业公司反而在某些单点技术上成为最优。

  例如,在真实场景中,噪音、被打断、离太远听不清,非常常见,因此不是简单一个识别率的问题而已。思必驰是一家只针对智能硬件厂商提供语音解决方案的公司,“在去年7月推出‘打断纠正’的智能交互技术,科大讯飞比它晚5个月,思必驰的语音输入板比科大讯飞早一年,但在严重噪声干扰中,准确率明显高于科大讯飞、百度语音。2015年发现了机器人对远场交互、声源定位的刚需,在去年12月推出环形‘6+1’远场麦克风阵列,讯飞是今年3月推出的。”思必驰公司市场负责人龙梦竹介绍。

  但创业公司既要避开互联网大公司,又要开辟科大讯飞已经抢占市场之外的其他领域。

  “我们专注的是交互,而不是识别。语音交互好不好,重点不在于识别准确率,而是垂直场景下的语义理解,以及后端服务。举个例子,如果你对机器说‘帮我放一首许巍的《生活不止眼前的苟且》’,如果机器回答你‘抱歉,找不到您要的服务’。用户只会觉得是交互不好,不智能。其实核心问题是,后端的内容不够。”龙梦竹告诉记者。

  因此,“阿里年初投了思必驰,重点不是资金,而是我们看中阿里能带来的资源,比如高德、虾米音乐、神马搜索、云os等。”龙梦竹告诉记者。

  这些创业公司需要非常专注在某一垂直细分领域,针对具体场景来为客户量身定制开发技术。“我们不做客服、不做教育、不做智慧城市,专注在车载、家居、机器人三个垂直领域的解决方案。车载后市场中,思必驰大约占45%市场。我们也没做方言,没做英语。但2014年以来的订单快速增加,证明了在专业领域的技术水平。”思必驰公司市场负责人告诉记者。

  另一家to B的基础技术公司云知声的CEO黄伟向《国际金融报》记者表示,“在应用层面,公司提供AI芯(智能芯片)、AIUI(智能界面)、AI Service(智能服务)三大解决方案。”

  人工智能芯片,即把智能程序植入芯片,例如针对空调的程序植入芯片后就可以装入各家公司的产品中,目前云知声芯片已经在美的、格力、华帝、海信植入芯片。“与讯飞、百度相比,云知声的技术定位是重点解决基于物联网设备的智能服务,尤其是从芯片级的紧密配合,直到打通云端服务。”黄伟表示。

  智能界面,即人机交互界面,包括车载后市场(即出厂后车主自己配置的工具)、智能家居(在家具中植入智能语音程序)、智能机器人等。

  而智能服务,是基于开放平台的SDK(软件开发工具包)。在这一方面,医院或许是个大市场。例如,医生不用再手写病历,直接说话即可自动录入。不仅如此,黄伟介绍,“云知声希望实现智能语音交互的知识问答、病历查询,进行健康风险预测和患者分群分析。目前合作伙伴包括北大医信、飞利浦医疗、北京协和医院、北京大学人民医院、江苏省肿瘤医院等。”

  除了to B市场,“出门问问”是一家做2C(面向消费者)方向软硬结合的公司,谷歌公司占其一成股份。公司推出了智能手表Ticwatch,以及针对安卓穿戴、谷歌眼镜的智能语音操控应用、中文智能手表操作系统Ticwear。

  总体而言,智能语音产业将呈现“多点开花、群星闪耀”的市场格局,但前提是能理解用户真实需求,否则不理解用户的语音将难以作为人工智能的切入口,而停留在语音只是语音的阶段。当下,正是该领域决胜负的关键战略期。

湟中6所学校收到上万本爱心书籍
  青海新闻网·大美青海客户端讯 4月21日,Qhnews.Com
达玉五谷村蝶变记
星空下的西海星墅。Qhnews.Com
青海发布规范旅游市场价格行为提醒告诫书
  青海新闻网·大美青海客户端讯 当前,Qhnews.Com
西宁市0岁至14岁颅颌面畸形患儿可获救助
  青海新闻网·大美青海客户端讯 又有一个好消息!Qhnews.Com