首页 > 科技快讯 > 第一个“拿起苹果”的人形机器人，为什么是Figure？

第一个“拿起苹果”的人形机器人，为什么是Figure？

晰数塔互联网快讯
2024-03-18 14:00

图片｜Photo by Figure

©产业象限原创

作者丨钱江

编辑丨山茶

3月13日，一则2分34秒的人形机器人视频引爆了网络，让人惊呼具身智能的时代提前到来了。

视频内容是美国人形机器人公司Figure的产品演示实景拍摄，视频中，工作人员向机器人询问“我能吃点东西吗”，机器人迟疑了几秒，然后熟练地将苹果递给了工作人员。

▲图源Figure

相信许多人看到这个画面，都会有一种不真实的感受，似乎置身科幻之中。

为了将大家拉回现实，Figure创始人Brett Adcock还在X上特意强调，视频是以1.0倍速连续拍摄的，机器人没有远程操作，所有动作和反馈都是完全基于深度学习自主完成的。

显然，随着Figure这则视频的发布，人形机器人又完成一个关键突破。

但问题也随之而来，为什么会是Figure？

要知道，Figure成立于2022年，发展时间距今不过2年。作为对比，世界上其他鼎鼎大名的人形机器人公司，特斯拉投入人形机器人已近3年，最近上市的优必选做了12年，波士顿动力更是做了21年。

那么，为何拿起“苹果”的第一台人形机器人是Figure？Figure是如何做到仅用两年的时间，就引领具身智能的前沿发展的？它为何会成功，又面临怎样的挑战？

惊艳的只是“智能”

虽然Figure展现了人形机器人无与伦比的交互能力，但我们仍然需要意识到的是，这并不代表真正的具身智能已经实现了，或者如Demo视频中展现的人形机器人就即将进入千家万户。

原因很简单，首先Demo视频演示的只是一个固定场景，而机器人真正进入人类生活和工作，还需要学会成千上万个类似的场景，这是一个从0到1，和从1到100的过程。

做一个简单的举例，就像自动驾驶第一辆车能够在测试道路上实现直线、转弯、超车变道等场景的自动驾驶，但并不等于自动驾驶车辆就有了上路行驶的能力。

就自动驾驶而言，早在20世纪60年，卡内基梅隆大学的研究人员依靠计算机视觉和人工智能开发的自动驾驶汽车，就已经可以在高速公路上以每小时20英里的速度行驶了。但直到60年后的今天，L5级别的自动驾驶仍然遥遥无期。

其次在Demo视频中，Figure 01并没有移动，它只是站在桌子面前，整个交互过程考验的只是它的意图识别、人机交互，以及上肢的操作能力。

简单来说，这个视频展示的真正厉害的点在于Figure01的软件能力，即其内部融合的OpenAI大模型大脑的部分，以及Figure01自己的，可以将OpenAI大模型能力与机器人本体（指机器人机械部分）进行翻译和交互智能系统。

Brett Adcock将这套系统称为“端到端”的神经网络，其工作流程大致为，OpenAI的大模型作为大脑，提供视觉推理和语言理解（其中可能包括Sora和GPT-4的能力）；Figure01神经网络作为小脑，根据OpenAI的大模型的判断做出一系列快速、低级、灵巧的机器人动作。

而对于人形机器人的考验，软件交互能力只是其中一部分，另一部分在于其本体的机械能力，比如如何在行走中保持平衡，各个机械部件的传动能力，如何让动作变得自然平稳，如何控制力度和精度等等。

而这些，需要考验人形机器人公司软件和硬件的协同开发能力，需要考验整个人形机器人供应链上下游的共同开发能力。而供应链也是目前人形机器人面临的最大挑战之一，其复杂程度不亚于当前的汽车产业链，但与汽车产业链发展距今130多年相比，人形机器人的产业链还处于“一张白纸”的状态。

Brett Adcock也同样认为，目前人形机器人最大的难题在供应链，这一点我们后面会详细展开。

当然，Figure在机器人本体上也并非全无成绩。事实上，它正在以飞快的速度前进。

这几年，人形机器人公司赛道上的选手有很多，Figure01的速度格外扎眼，它只用了1年时间就打破了机器人行走纪录，而特斯拉花了15个月、波士顿花了21年。

▲图：X@BrettAdcock

除此之外，资本市场的青睐也给了它更多的推力。

今年2月，Brett Adcock公布Figure获得6.75亿美金融资，其投资团队震动了半个硅谷，亚马逊创始人贝索斯，以及微软、英伟达、OpenAI都来捧场。

随后，Brett Adcock也公布了一张公司职位申请数量增长图，来显示Figure的受欢迎程度，从2023年7月到2024年2月，8个月期间想入职Figure的应聘者数量增长了218%。

▲图源：X@BrettAdcock

总而言之，Figure正在以前所未有的速度，向着“具身智能”的时代前进。

借上OpenAI的东风

正如我们前面提到的，Figure01的关键是软件，而软件中让人惊艳的能力又主要来源于OpenAI。

所以严格意义上说，Figure在人形机器人上做出的创新其实有限。

但这并不妨碍Figure01带来的惊艳。Figure01能听懂人类的指令、识别出哪一个物体可以食用，并顺畅地转化为行动能力。

这项能力之所以令人惊艳，除了丝滑无障碍的沟通之外，还在于它解决了机器人行业的一个固有悖论——“莫拉维克悖论”。

它由人工智能和机器人学领域的先驱汉斯·莫拉维克提出，在计算机和机器人系统中一个有趣且非直观的现象：对于人类来说简单的感知和运动任务，对计算机和机器人而言却异常困难；而人类认为复杂的逻辑和抽象思维任务，对计算机来说却相对容易。

所以Figure01展现的递苹果、摆盘子行为看上去简单，实现起来有一定的技术难度，需要拥有识别、计划和执行任务的能力。

而这项能力也来源于“端到端的神经网络闭环”，即Figure01可以直接将看到的、听到的信息转化为语言和行为结果，中间不需要经过其它程序处理。

Brett Adcock解释Figure01的技术路线，称Figure01连接了Open AI的能力，所有行为均由神经网络视觉运动变压器策略驱动，可以将像素直接映射到动作。

▲图源：X@CoreyLynch

出门问问创始人李志飞在他的账号“飞哥说”中详细剖析Figure1的技术原理，在整个过程里，Figure01至少灵活拥有两项能力：大语言模型的思维链COT能力，以及顺畅的底层操控能力。

拆开来说，Figure01的这一套操作，需要机器理解自然语言，并把自然语言转换成机器的抽象计划，再将这项抽象计划转化成底层操控。

最近的一次引发轰动的机器人成果，是斯坦福大学华人团队研究的Mobile ALOHA，它能够炒虾仁、按电梯，这个能力还是通过人工远程操控叠加静态ALOHA数据才实现。点击查看《人形机器人，也迎来ChatGPT时刻？》

▲Mobile ALOHA样机

在机器人领域，目前为了解决这个问题最盛行的是三种模型：

第一个是RT-1模型，输入文本指令和对应图像，通过预训练模型将其转化为token，再经过压缩，最后输出机器人听得懂的三个维度操作指令Mode、Arm、Base，分别用于控制机器人的模式转化、控制机器人手臂动作，以及控制机器人移动。

第二个是PaLM-E模型，通过输入多模态模型知识，对任务信息进行处理，分解成特定的机器人指令。

这两种模型可以进行融合，机器人经过PaLM-E模型接收特定指令，再由RT-1将特定指令转化为对应的机器人控制指令。

第三种是RT-2模型，即视觉-语言-动作（VLA）模型，可以直接将机器人输入的信息转化为动作，单从表现来看，这似乎更符合Corey Lynch对外宣称的“端到端”实现方式。

根据李志飞团队的分析，Figure01更符合RT-1+PaLM-E的模型融合。Figure01从接收指令到行动，虽然这个这个过程有延缓，但整体非常顺滑，RT-2决策频率是1到5hz，很难做到Figure1的200Hz程度。

Brett Adcock搭载了Open AI的顺风，在具身智能的道路上迈出了一大步。

单位时间内跑的最快的公司

当然，如果要回答Figure为什么跑得这么快，也不得不提到它的创始人Brett Adcock了。

和马斯克一样，Brett Adcock在社交媒体上异常活跃。但Brett Adcock又与马斯克的口无遮拦，嬉笑怒骂不同，他在社交媒体上更新的主要是他的工作进度和思考。

这是一个实打实的工作狂。2003年4月，随着Figure完成7000万美元A轮融资，Brett Adcock在X上发布帖子的速度变得更加勤快。

他每天都发布若干条创业心得或与机器人相关的动态，并按“周”的速度强调一遍对“AI Robotics”行业的观察与变化，常用语是“Bug week of developments…”或者“That's it for this week's AI and Robotics breakdown”。

除此之外，Brett Adcock还是一个久经沙场的创业老兵。在投身人形机器人这一硬件领域之前，他就已经在软件领域摸爬滚打了10多年。

他在X上常常总结分享自己的创业洞见，最常见的几个关键词是：快速、高效、轻便、低员工数、小团队、系统，在创办Figure之前，这些方法论是Brett Adcock连续创业成功的关键。

▲图源：X@BrettAdcock

Brett Adcock出生于1986年，他的童年在伊利诺伊州莫韦夸小镇外的一个玉米和大豆农场度过，或许从小就见惯了日夜劳作的过程，他对提高工作效率、节省劳动力的事情格外着迷。

2002年，还在上学的Brett Adcock就创办了一家网络公司Street of Walls，据说这家网站至今还在帮助金融领域公司提高面试效率。

2012年，25岁的Brett Adcock和Adam Goldstein联合创办了一个就业网站Vettery，在这段经历中，Brett Adcock将“高效”这件事情拔高了N个等级。

最初，Vettery只为第三方招聘公司提供服务，但“经历几次绝望的转型”之后，最终决定“抛弃所有招聘人员，将求职者和公司放在一个市场”，通过机器学习匹配求职者和招聘方。

这个方法果然奏效，Vettery的用户几乎每周都在翻倍增长。

▲图源：Newatlas

正向的循环很快得到了市场的回应。

2018年，Vettery在短短6年的时间内获得20000名客户，获得当时世界上最大的招聘公司Adecco集团的注意，Adecco集团以1.1亿美金的价格收购了Vettery。Brett Adcock获得了人生第一桶金。

Brett Adcock的第二个创业项目是“电动垂直起降飞机”，其创办的Archer Aviation（简称Archer）是第一批eVTOL（电动垂直起降）概念的公司之一，这时Brett Adcock 30岁。

Brett Adcock很擅长“找钱”和“找人”。

Archer成立后不久，Brett Adcock就拉来了沃尔玛电子商务主管兼Jet.com创始人马克·洛尔 (Marc Lore) 作为投资人。Lore在2016年将Jet.com出售给沃尔玛的时候就已经身价上亿，2020年还持有2.75亿美金沃尔玛股票。

通常来讲，Lore不会投资朋友和家人以外的创业公司，但Brett Adcock成了例外。不仅如此，Lore还帮助Brett从家族和其他对科技感兴趣的富人那里筹集了大量资金。

很快，Brett Adcock组建了“豪华”的44人团队，寻找航空领域的人才，包括前航空电子和工程部门负责人斯科特·弗曼(Scott Furman)和汤姆·穆尼斯(Tom Muniz)、空中客车公司Vahana原型机的总工程师杰夫·鲍尔(Geoff Bower)，正式开启“空中租车服务”的旅途。

Brett Adcock“找钱”和“找人”的能力也复制到了Figure上。

2022年，当OpenAI开始在文本生成、自动编程、语言翻译、内容创作等多个领域尝试应用GPT-3时，Brett Adcock也从Archer离职了。

这个决定非常出人意料，因为当时Archer已经在申请飞行证的关键节点，现在我们无法考证Brett Adcock的离职是否是看到了人形机器人的更大机遇，但至少Brett Adcock因为这次离职赶上了人形机器人的风口。

之后就有了Figure的故事，Brett Adcock找来了Jerry Pratt担任首席技术官，谷歌DeepMind科学家Corey Lynch也加入了Figure团队。

Jerry Pratt从1998年就开始研究机器人，他曾经写过一篇论文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》，这篇论文提出了一套算法，它可以让人形机器人在有限的立足点信息内，也能实现迈步，火出圈的波士顿Atlas采用的正是这个算法。

2022年5月，Figure成立。之后两年，人形机器人赛道群雄环伺。

国外有马斯克不断迭代Optimus，1X也获得Open AI融资，中国市场宇树H1不断钻研全尺寸人形机器人跑步，优必选敲钟上市。Figure能在这些公司中突围而出，或许缘于Brett Adcock在X上表达的理念，“如果我是一名投资人，我会建议寻找单位时间内进步最大的公司”。