首页 > 专业知识 > CEO锦囊·X计划|当机器人学会表情管理,有多好玩?

CEO锦囊·X计划|当机器人学会表情管理,有多好玩?

《CEO锦囊 · X计划》酷感上线!一个专属于科技产品的发布现场,CEO带着尖货登场。我们不聊空话,只聊那些已经成形、足够惊艳的科技单品。

AI交互进入“表情时代”,什么样的机器人才最像“人”?是能说会道,还是能读懂你的情绪?当AI从文字大脑走向具身表达,从硬件走向情绪交互,它将如何改变我们的陪伴方式与交互体验?8月7日 19:00,《CEO锦囊 · X系列》邀请到无论科技创始人&CEO曹荣昀、云岫资本董事郭皓,带你感受“会表情管理”的机器人有多好玩。

本次直播主要聚焦以下问题:

两位当初是如何相识的?如何看待学院派创业团队的潜力? Anni这款机器人表情如何实现的,两位有哪些看好的AI产品? 两位如何评价这类产品的产品形态方向,以及这类产品的价格区间,未来的竞争格局? 两位如何看待表情头产品的技术难点和落地场景?曹博是如何开始创业的?为什么会用灰色皮肤? 在两位看来,这个领域的未来赢家的核心优势是什么?如何判断什么是真AI项目? 去年行业内有人说,人形机器人至少10年不会商业化。两位如何看待今年的形势? 两位觉得未来的情感陪伴市场有多大?对正在具身智能这个赛道创业的朋友,有什么建议?

以下为嘉宾和36氪的对谈,部分内容经过整理编辑:

36氪:两位当初是如何相识的?如何看待学院派创业团队的潜力?

郭皓:我们最开始是在科大视频号上看到曹博士他们的产品,当时还是初版 Demo,简单模仿一些面部表情,当时觉得很有意思,便很快联系到曹博,希望参与、支持团队的企业孵化。云岫领投了种子轮的投资,并协助团队从小规模逐步发展为具备商业化能力的企业,共同推进项目,这个过程很有意义。

曹荣昀:我是在师兄的介绍下,和Neo一起吃个了烧烤,没有什么是一顿烧烤解决不了的。关于我们团队,是在中科大计算机学院机器人实验室相识,大家可以说是十八般武艺,样样精通。除了硬件设计和软件算法外,从拧螺丝到做机器人脸部的硅胶成型,大家在实验室基本什么事情都做。由于机器人研发是多学科融合的领域,大大小小的领域都需要非常了解。我认为大家的基础能力非常扎实,同时由于一起共事时间很久,大家的信任基础也很坚实。

36氪:Anni这款机器人表情如何实现的,两位有哪些看好的AI产品?

曹荣昀:首先,通过三个层面实现。一是硬件层面,需要先造出机器人,才具备做表情的能力。我们的表情头因电机数量最多,为复杂表情提供核心支撑。二是任务层面,这部分模型决定机器人在何种情境下该做什么表情。三是执行层面,比如如何做出 “开心” 的表情。

关于AI产品,我认为提升生产力或创造力的很重要,高质量的人生体验也同样重要,情绪价值带来的满足同样有实际意义。我最近印象深刻的是一款AI游戏产品,来自于蔡浩宇的《群星低语》,其背后的智力成本是关键。当前大模型浪潮下,多数交互产品难以避免轮次式、回合制交互的局限,与人与人之间实时连续的自然交互不同,这一技术难题较难解决。但这款游戏巧妙化解了技术短板。比如,它将故事背景设定在人与身处外星的角色的跨星球互动,利用物理世界中光速有限的Bug,合理化了AI交互的延迟和轮次感,用场景设定弥补了技术缺陷。这种设计非常聪明,我觉得任何一个好的产品,背后一定涉及大量的智力成本,我在这个游戏上看到了。

郭皓:AI产品不止于人形机器人,核心是能否真正省力、解决实际问题。软件方面,像AI Agent辅助编程工具已很成熟,朋友的软件公司用它显著提升开发效率、降低成本,进步明显;硬件方面,Plaud.AI的录音产品就很实用。陪伴类产品实用性和需求性不强,且价格偏高。不过也有一些有潜力的,比如用乐鑫ESP32做的桌面机器人类产品,BOM成本仅一两百元,他们自己也推出了相关套件,很有前景。因此我觉得,成本降低是这类产品落地和被接受的关键。

36氪:两位如何评价这类产品的产品形态方向,产品的价格区间,未来的竞争格局?

曹荣昀:首先,考虑到表情头这种产品确实存在恐怖谷问题,我们的ToC产品会更倾向卡通化路线。人们对有生命力事物的想象,已充分体现在电影、动画中,比如《汽车总动员》里的汽车、或其他影视作品里的玩具及猫狗等都有生动表情,这与现实世界截然不同。所以,我们正探索将异次元世界、影视游戏中的这类形象带到现实,让人们看到现实中也能有如此生动的存在。

另外,我认为交互产品,未来会是一个多元化的市场。因为陪伴产品与内容强绑定,比如生活中的短视频平台、游戏等都是陪伴产品,它们伴随着你的日常、和你共度时光。其中,游戏行业是很好的例子,大型公司能凭借人力和资源开发3A大作,而许多有创意的工作室甚至个人也能产出优秀作品。所以,我认为未来这个市场会非常有意思。

郭皓:首先,今年CES上有几款产品颇受关注,比如可挂在包上、能活动并给出反馈的产品Mirumi,还有很多不同价位的同类产品,品类很多。但这类陪伴产品能否实现良好且持续的实际销量,仍需市场验证。

其次,陪伴玩具终究难脱“玩具”的基本定义,其定价可参考主流游戏机价格的一半。比如,任天堂Nintendo Switch 2的定价499美元且销量很好,依托粉丝效应和凝聚力,其他产品难以比拟,其一半价格约220美元。因此,陪伴玩具若定价在200美元以下且实用性强,可能更有市场,价格过高则导致购买力难度加大。当然,这也受多种因素影响,比如刚提到的Nintendo Switch 2因有任天堂IP支持而畅销,陪伴玩具若有优质IP加持,同样能获得溢价。

最后,这类硬件产品难以形成高市场集聚度。一方面,技术门槛分散在多个技术点,产品形态不同,所需技术栈也完全不同。另一方面,硬件与软件差异较大,网格效应较弱,因此大厂会参与且产量较大,小创业公司也会不断尝试新品,一款产品爆红就可能成长为优秀企业。由此可见,这个市场会呈现群雄并起的格局,互联网大厂、有优质IP的成熟公司及创业公司都会参与其中,且短期内竞争格局难以改变。

36氪:两位如何看待表情头产品的技术难点和落地场景?曹博是如何开始创业的?为什么会用灰色皮肤?

郭皓:首先,从技术角度看,2023年是个好时机。大语言模型的出现衍生出很多可能性,这对交互领域很有价值。但从资本市场来看,时机不算最佳。2020—2021年时,一级市场热度很高,融资、上市都很活跃,之后的难度有所增加,各方面挑战更大。

其次,目前人工智能有两个方向备受关注:一方面是AI Agent,另一方面是具身智能Robotics AI。投资人都会问的一个问题,就是:“商业化场景是什么?怎么去落地?”,在这个方向上创业,本身寻找的就是商业化落地场景,大家已经把锤子准备好了,就找那个钉子准备锤下去。所以创业的过程也是寻找这个问题答案的过程,作为FA,我们也只能跟投资人朋友们说,我们设想中的场景可能有哪些,无论科技也在尝试地去做落地。

最后,行业内也一些标杆企业在落地场景上已有实践。比如英国Engineered Arts公司的Ameca机器人,去年在米兰时装周上与模特的互动表演很成功,表明机器人在演艺行业有落地场景。从国内来看,教育、导览、导购等场景也有望应用机器人。

曹荣昀:从团队经历上讲,我们早年在实验室做过很多能抓取物品、完成操作任务的实用机器人,但在2015、2016年,我们发现这类机器人真正做到实用的难度很大。当时没有大模型辅助任务规划,泛化性差。于是我关注到交互赛道。这个方向的成本更低,容错率较高,但也有其挑战。于是在2022年,我们核心团队决定创业,并获得学校创新创业经费的支持。2023年,我们认为时机成熟,为进入市场化竞争、面对更严苛考验,成立了公司。从在象牙塔里读书的学生转变为创业者,充满挑战却也有趣,我希望能借助这个过程尽快成长。其次,从这件事本身的价值上讲,人与人交互中,人的表情、手势、距离控制等占比超50%的非语言交互,常被忽略。机器人既然是人形,就应借鉴人类更自然的拟人交互方式,而面部表情是其中最关键的非语言交互部分,因此我们从表情头开始着手。

表情交互的难点,体现在以下几个方面。第一是硬件,表情的上限取决于硬件,人类面部有42块复杂肌肉驱动表情,机器人用电机模拟肌肉工作原理,驱动弹性皮肤。第二,决定何时做出何种表情与情绪,由两个模型共同完成。一个是反射式模型,类似人紧张时本能出现的紧张表情、姿势,无需大脑推理,是实时的、更底层的反应。另一个类似大脑的推理过程,由大模型负责逻辑判断与推理。

最后,很多人好奇我们为什么选择灰色面部。一方面是为了避免恐怖谷效应,减少不适感;另一方面,我们认为机器人不应与人类长得一模一样,否则未来可能产生伦理问题。我们希望探索出一张通用脸,无关性别、种族,能被全世界接受,而目前的灰色脸正是这一探索过程中的一步。

36氪:在两位看来,这个领域的未来赢家的核心优势是什么?如何判断什么是真AI项目?

郭皓:首先,判断硬件类产品,需关注其技术底层是否有特色、是否易被仿制。比如,表情生成技术,融合了机械结构、软件算法、生成式表情驱动等,其中有许多靠时间积累的核心技术也就是所谓的Know How,难以在短期内被破解或复制,这是项目的价值所在。

当下,许多偏软件的产品都想与AI绑定。可从几个方面判断:

第一,算法与模型能力。关键在于是否具备自主优化算法的能力,而非仅调用公开API,或调整Prompt来优化产品,两者差异巨大,算法优化能力是形成自身核心竞争力的基础。

第二,数据累积能力。对AI相关的垂类领域而言,数据至关重要。若没有新数据的生成能力,仅依赖公开数据库或爬虫获取数据,通常缺乏壁垒,与过去的做法并无本质区别。

第三,产品落地与进化能力。包括软件产品的应用落地场景、反馈实时性以及进化速度等,这些都是关键考量因素。

曹荣昀:首先,从技术底层和产品模态的角度看,大模型及一些软件类的AI产品、AI硬件产品的输出模态相对单一,我们想让输出模态更丰富、更有趣。这一点和自动驾驶很像,以我们的Anni为例,输入为机器人面前的音视频信息,输出则直接体现为机器人的表情、动作等,就像汽车的输入是道路环境信息,输出是方向转动、油门刹车控制,最终都反映在硬件自身的控制量上。对交互类产品来说,核心优势是怎么通过硬件平台和背后的算法,去实现真正生动的交互体验,而不只是大模型套个壳。

其次,国内具身智能公司创业是有优势的。以交互人形机器人为例,英国Engineered Arts公司的Ameca机器人至今仍是非常出色的交互人形机器人产品,也是我们的对标对象。但我认为在中国做机器人及软硬结合的产品,依托国内的供应链的广度、深度、速度与人才优势,未来很可能诞生极具惊艳感的产品,且发展会更快。

36氪:去年行业内有人说,人形机器人至少10年不会商业化。两位如何看待今年的形势?

郭皓:首先,我对人形机器人的看法与陪伴机器人一致。人形机器人核心要解决“为何必须是人形”,并且难以判断拐点何时出现的问题。比如工业场景中,多数需求可用成本更低的机械臂满足,无需人形机器人。过去20年机械替代人的过程也未依赖人形形态。从这个角度来看,人形机器人要迎来拐点,需满足两点:

第一,找到合适的落地场景,目前仍在探索中;

第二,持续降低成本,价格与渗透率呈反向关系,价格越低,渗透率越高。比如宇树的 R1价格已降至3.99万,降幅堪比芯片领域的摩尔定律。当人形机器人在成本上,接近甚至低于雇佣员工、且更好管理时,才可能迎来落地爆发。

其中,成本下降的关键在于量产和供应链成熟。产量越大,采购成本越低,进而推动更大规模生产,形成正向循环。目前已有零星场景支撑起基础需求量,比如宇树在教育科研领域销量可观,通过向学校、研究室供货,支撑了调试、教学等需求,其表现突出,成本也随之下降,而量大正是工业化的重要因素。目前很多非标件采用3D打印制作,不仅周期长、成本高,安装要求也高,还容易出现卡扣卡不上等各种小问题。而实现工业化后,就能进行大批量生产,行业成本下降空间很大,只要产量上去了,成本可以大幅降低。

另外,从应用场景看,教育科研领域确实是会最快落地的。无论是人形还是交互层面,相关订单已开始落地。其次是导购场景,比如在中国新能源汽车出海背景下,海外4S店的部分销售工作可用机器人完成,能减少语言培训等环节,便于整体输出。家庭场景落地不会太快。家庭养老、育儿等场景的容错率极低,人形机器人目前难以满足。家庭清洁场景中,扫地机器人已足够好用,无需人形产品。

不过,家庭场景可能会有其他形态的产品切入,比如桌面玩具、情感陪护类设备,关键是要找到合适的产品形态,若有好的产品定义,渗透率会逐步提升。当前家庭场景市场较空白,缺乏优质产品,但已有不少尝试。例如一款球形产品,可远程遥控逗猫、查看猫咪状态,不过价格偏高,且功能可通过扫地机器人加装摄像头实现。因此,产品定义、形态设计与成本控制同样重要。

曹荣昀:首先,目前机器人创业公司普遍面临量产压力。以我们的Anni产品为例,这一代表情头已经用到34个电机,很快还会增加,且内部包含大量非标件。以一个熟练工为例,从零到一组装一个头大约需要两天,人力成本很高,这也体现了产品的高复杂度。所以量产肯定是一个可预见的挑战,我们正致力于解决这一问题,希望推出标准化产品。

另外,从商业落地和拐点来看,我更看好C端落地方向。目前我们的技术栈已足够支撑不错的AI陪伴产品,而且市场缺好产品。AI玩具同质化严重,外观相似且价格不低。以游戏行业的《黑悟空:神话》为例,此前中国游戏市场缺乏优质大作,而该作品推出后,连不怎么玩游戏的人都开始关注、购买和尝试。所以,我认为满足情绪价值的产品,打动人很关键,说不定何时就会出现真正能打动人的产品。

另外,人形机器人行业类似20世纪的汽车初期。比如,那时汽车可能随时抛锚,现在机器人可能摔倒,行业初期会让人疑惑其价值,但我们则坚信。而说到一类新产品的大规模普及,我认为可以参考电脑或者手机,电脑从大型机到PC的关键节点,是图形化界面的发明。此前需专业培训、敲命令,而图形化界面让操作直观。另外移动互联网的开端,源于iPhone带来的交互革命,颠覆了操作方式。无论是PC还是iPhone,交互方式的革新都是关键,这才催生了互联网和移动互联网时代。人形机器人要开启新时代,同样需要一场适配自身的交互方式革命。

36氪:两位觉得未来的情感陪伴市场有多大?对正在具身智能这个赛道创业的朋友,有什么建议?

郭皓:首先,从市场规模来看,若不区分软硬件,以AI陪伴类产品为例,未来将是千亿美元级市场,产品形态会百花齐放。成瘾性可类比游戏行业,规模会非常大。竞争者方面,互联网中成熟IP和软件优势的大厂、硬件领域发展较好的创业企业会参与,市场竞争会很活跃。

其次,AI陪伴产品的成瘾性源于三点:

一是及时反馈,能快速响应情感需求,避免沟通延迟带来的不良体验;

二是记忆累积,生成式模型会记住用户对话并持续互动,增强趣味性;

三是情绪定制化,可打造特定人设,满足个性化需求,比如,马斯克的AI女友,就推出了三个形态,未来他们也会开放更多付费模式。

另外,从用户角度看,千禧一代成长于无AI时代,对这类产品的依赖度相对有限。2020年后出生的“AI一代”,从小就接触AI,他们长大后可能会对这类产品产生更强的依赖。

最后,大模型领域今年已经很难进入了,但垂类应用领域目前很火,资本市场非常看好。与具身相关的领域今年仍有诸多尝试机会,市场才刚起步。应用方面,像Agent编程这类就很不错。总之,希望这个领域能不断发展,也期待有意向或已在该领域创业的人多交流。

曹荣昀:首先,我觉得人很会寻找乐趣,满足情绪价值的产品种类繁多。软件和内容层面有游戏、电影、动画等,硬件层面则包括玩具、游戏机,甚至赛车、运动飞机也可归入此类。这个市场规模极大,难以估量。我认为,产品形态或人机交互方式的每一次创新,都会带来新机会。

另外,从我的角度来说,谈不上对他人的建议,但可以说一说想法,跟大家共勉。当我第一次深刻感受到世界上有很多事物是不可知、不可控的,这对我冲击很大。从宇宙诞生到我们出生,世界经历了漫长而复杂的演化,我们在世上的存在只是短暂一瞬,之后又会归于不存在,任由宇宙继续演化。所以,我们希望能在这短暂的人生中,找到一件自己觉得酷的事,坚持做下去,先让自己相信,再让所有人相信。

更多精彩内容,可点击观看完整直播回放:

 

 

《CEO锦囊 · X计划》征集中!

如果你的公司正在打造前沿科技产品——无论是AI交互、机器人、智能硬件,还是颠覆性的技术应用,欢迎加入我们的发布舞台!入选产品将获得: CEO亲自演示,直面行业与用户;顶级资本、科技媒体深度曝光。咨询可添加wechat:zhushou36kr。

下一期主角,会是你吗?

 

相关推荐

CEO锦囊·X计划|当机器人学会表情管理,有多好玩?
CEO来信 | 这次“双11”,最好玩的是“预测算法”
CEO锦囊Vol. 1|疫情暴露出哪些问题?公司怎么寻找“活下去”的机会?
内外环境巨变之下,企业如何穿越资本寒冬?丨CEO锦囊Vol.5
CEO锦囊Vol. 2丨疫情之下,消费品牌如何困境突围、转危为机?
哥伦比亚华人博士推出「蓝脸」机器人,会做42种表情,ICRA 2021已发表
疫情冲击下,4个锦囊助企业进行战略“自救”
如何成为表情管理大师?AI或许能给你不一样的答案
拆开中小企业的数字化“锦囊”
中国年遇上“科技范儿” 这个春节多地景区机器人“很忙”

网址: CEO锦囊·X计划|当机器人学会表情管理,有多好玩? http://m.xishuta.com/zhidaoview31345.html

所属分类:创业投资