首页 > 科技快讯 > 从《Her》到「玩秘」,语音助理的“智能时代”何时到来?

从《Her》到「玩秘」,语音助理的“智能时代”何时到来?

在不少科幻电影里,智能语音助理可以像朋友一样和人进行交流,并帮助人们解决生活中的问题和需求(比如《钢铁侠》中的Jarvis、《Her》中的Samantha、《西部世界》)。但现实和理想总是存在差距的,目前市面上的大多数语音助理还停留在机械式对话的初级阶段,距离实现“让智能语音助理像人一样思考”的目标,仍有不小距离。对此,不少从业者和用户都有一个相同的期待:未来3-5年,能否出现一个像Jarvis、《Her》这样的助理?或者至少实现《Her》的功能性的部分?

「玩秘」语音订电影票服务实例

随着算法技术与算力的提升,从最终实现智能语音助理的角度来看,高性能GPU和AI芯片构筑强大算力,深度学习框架、BERT/GPT-3算法的持续成熟,让智能语音助理的“前提条件”日臻成熟。另外,ASR语音识别技术和TTS语音合成技术的发展也为语音助理提供了相对发达的 “耳朵”和“嘴”,但“耳朵”虽然能“听见”,却还不能理解,也没有能够思考的“大脑”。语音助理之所以不成熟,是因为它欠缺理解与思考能力的核心——基于NLP的多轮对话和逻辑思考技术。

部分从业者认为,BERT、Transformer、Self-attention等算法模型在此前的多项简单NLP任务中取得了卓越表现,未来对于BERT等模型的掌握才是语音助理实现《Her》功能性部分的关键。然而事实并非如此,如果把研发人工智能助理比喻成研制手枪,那么BERT等模型的作用就是进一步提高了子弹中火药的硝化甘油的纯度,硝化甘油纯度的提升固然能增强手枪的威力,但此前手枪研制没能成功并不是因为硝化甘油的纯度不够高。真正制约着手枪能否成功研制的关键“瓶颈”,是对于扳机传动装置、击针等高技术含量部件的技术突破。

在上面的这个比喻中,击针、手枪扳机传动装置的关键技术指的是NLP技术中,将一个以亿为单位的人类所说的语句高维空间投影向一个有结构并具有物理世界意义的intent低维空间的这个“降维过程”。当语音助理在询问用户家庭地址信息时,用户可能说“这关你什么事呀?”。这句话就体现了人说话时语言的巨大多样性,这句话就是“以亿为单位的人类所说的语句高维空间”中的一个样本点,而这句话经过降维过程之后所投影向的intent中应该包含“用户想知道语音助理询问家庭地址的原因”和“用户表达不快”等因素点。 

用一套“可泛化型”的复杂技术框架把“这关你什么事呀?”这种超高维的人类语言降维成 “用户想知语音助理询问家庭地址的原因”和“用户表达不快”等因素点的低维intent,这就是所说的“降维过程”技术。因此,包含该“降维过程”的整体NLP语音助理技术的难度和复杂程度之高,从某种程度上来说,不亚于光刻机在芯片行业的研发难度,属于算法领域的绝对“硬科技”。

在PC时代,人机交互主要依靠鼠标键盘。现在的移动互联网时代,触觉交互又成了主流方式。那未来会怎么发展呢?试想一下,在3-5年后,如果有《Her》这样的语音助理出现,当你想看电影、点外卖或者需要订酒店时,只需要简单的说几句话,它就能够根据你的喜好,帮你预定你想看的影片、点符合你口味的外卖、订你喜欢的酒店。相较于你自己打开很多个APP,从众多信息中去逐个查找、比较、筛选,是不是非常省心?有多少用户会愿意舍弃这样的服务,再回到触觉交互的时代呢?而语音助理中所用到的NLP多轮对话和逻辑思考技术门槛极高,注定只有极少数公司能够掌握。此外,如果能成功打造出《Her》这样的语音助理,就相当于掌握了语音交互时代的“服务分发权”。

纵观国内语音助理市场,轮子科技作为国内最早一批开展面向任务型(Task-oriented)的NLP语音助理服务的企业之一,其自主研发的产品「玩秘」与市面上大多数语音助理的机械式问答服务不同,「玩秘」在帮助用户切实解决需求的同时,能够像《Her》一样进行人性化的表达和交互,例如用户说“我想周末去看《八佰》”,玩秘会回复“好呀,周末的话,你要在家附近看吗?”在语音交互的过程中,能让用户真实的感受到“被关注、关心”的人性化体验。

公司创始人余轲曾获斯坦福、普林斯顿硕士博士学位,博士研究方向为超高维统计学习与深度学习。后担任国际顶级量化交易商摩根大通公司人工智能算法交易全球总负责人,长期带领大型人工智能算法团队进行技术研发,在NLP算法研究领域积累了坚实的创新型研发实力。在上面“研制手枪”的比喻中,击针、手枪扳机传动装置所比喻的超高维跨度的“降维过程”正是余轲所专精的方向。「玩秘」在传统的NLP语义理解和逻辑思考技术基础上,创新性的自行研发出基于LASSO、Markov Blanket、Elastic Net等算法的NLP算法体系,并在此基础上进行了“人性化与个性化”等多次重大技术迭代。

自2020年起,公司加大了人才引进力度,研发速度较往年增长数倍。目前,「玩秘」已投入使用的第六代NLP深度学习语义理解模型的多轮对话语义理解率高达85%,而业内类似产品的理解率最高仅在32%左右。「玩秘」的底层技术框架可以在电影票、外卖、酒店等不同的服务领域间实现完全共享,大大降低了服务领域的拓展时间和拓展难度。

目前,「玩秘」已在华为手机的系统级语音助理“小艺”上线了订电影票服务。用户只需要在华为手机中打开语音助手“小艺”,对小艺说“电影票助手”即可进行语音在线选电影、选座购票。双方还将联合推出免技能词服务,届时,用户将不用说“电影票助手”即可直接通过对话进行电影订票。根据公司战略规划,未来1-2年内,「玩秘」还将陆续增加外卖、推荐餐厅、打车、酒店等4个领域的智能语音助理服务,3-5年内还将实现购物、婚恋、教育推荐等复杂场景领域的语音助理服务,致力于将「玩秘」打造成全生活场景的人工智能“大脑”。

道阻且长,行则将至。只要不停下探索的脚步,语音助理实现“像人一样思考”的目标或将可以实现。而「玩秘」也即将开始从“0到1”向“1到10”的转变,进入一个高速的发展阶段。

相关推荐

从《Her》到「玩秘」,语音助理的“智能时代”何时到来?
「玩秘」AI语音对话助理服务在小米手机上线,语言多样性覆盖度已达76%
36氪首发 | AI生活助理「玩秘」获2000万人民币A轮融资,聚焦汽车、手机、智能音箱三大场景
独角兽黄金时代结束?下一波Uber、WeWork何时到来?
智能语音“双巨头”阻击新冠肺炎战疫,在哪些领域大有作为?
从不温不火到炙手可热:语音识别技术简史
电池大突破到底何时到来?三大难题难倒科学家
小企业不配谈技术门槛?从语音识别巨头Nuance的兴衰说起
翟菜花:5G时代的顺风车,智能音箱该怎么"坐"?
小程序中场战事,BAT搅动产业互联网的秘钥

网址: 从《Her》到「玩秘」,语音助理的“智能时代”何时到来? http://m.xishuta.com/newsview30822.html

所属分类:互联网创业