首页 > 科技快讯 > 人形机器人，上下两千年

人形机器人，上下两千年

晰数塔互联网快讯
2023-09-02 16:22

传说在西周时，曾有过一位爱好旅行的天子周穆王。他曾经越过昆仑山，一路向西，用三年时间周游了列国。

就在他结束游历，即将回国之时，有一位名叫偃师的工匠在途中求见了他，并向他献上了一个自己制作的人偶。这个人偶外貌栩栩如生，可以像人一样自如地站立行走。周穆王见了大为吃惊，叫来自己的宠妃一起观看。就在周穆王和宠妃对着人偶细细端详、品头论足时，偃师一声令下，人偶竟开口唱起了歌来，歌声婉转悠扬，十分动人。唱到高潮处，人偶又舒展四肢跳起了舞。如此精彩的表演，逗得周穆王哈哈大笑。

而就在表演即将结束时，发生了一个意外：这个人偶竟然含情脉脉地向周穆王身边的宠妃眨了眨眼。或许在当时他们所在的西域，演员向观众眨眼致意是一件稀松平常的事，但在从小就接受礼法教育的周穆王看来，这种举动无疑是一种轻薄之举。更为重要的是，这种人情味十足的动作似乎坐实了眼前的人偶其实是由人假冒的，如果是这样，那偃师就是犯了欺君之罪。一怒之下，周穆王就要下令处死偃师。

偃师赶紧向周穆王解释，刚才表演的只是一个人偶。见周穆王不信，他当场把人偶拆散。周穆王看到眼前一堆七零八落的零件，才终于相信了刚才为自己献舞的确实不是人。于是不禁感叹：“原来人工的技巧竟能达到与天地造物者同样的水平，真是不可思议！”

以上这个小故事出自《列子·汤问》。如果按照现在的观点，故事中偃师制作的那个人偶就是一个机器人，一些故弄玄虚的营销号还把这个传说作为远古机器人存在的证据而大加炒作。这种炒作当然是不可信的。作为道家的典籍，《列子》一书充满了玄幻色彩，而周穆王和偃师的这段轶事只不过是其记录的上百个故事中的一个，其本身并不具备任何作为史料的价值。然而，这个故事却反映了一个问题，那就是人类对于创造机器人的追寻至少可以追溯到两千年之前。

古代的人形机器人

如果我们把目光放到更宽的范围，就会发现关于机器人的想象其实并不是中国独有的。

比如，在古埃及的神话中有这么一个故事：法老奥西里斯曾被自己的弟弟赛特杀死，尸体被肢解成了很多块。后来，奥西里斯的妻子伊西斯找齐了丈夫的尸块，并把它们重新拼接在一起，然后在死神阿努比斯的帮助之下，将之复活了。有意思的是，在古埃及的壁画中，奥西里斯的形象是一个背后装有类似特斯拉线圈装置的人。而在一件出土的陶器上，则出现了伊西斯将手伸入奥西里斯后背的画面。有学者将神话和这些画面结合在一起，得出了一个大胆的猜测：所谓复活的奥西里斯其实并不是一个真人，而只是一个由伊西斯控制的机器人。

虽然这种说法似乎过于离奇，但其实它是有一定的历史依据的。在古埃及时期，人们已经懂得了一些简单的机械设计知识，并造出了一些由机械力驱动的机器。其中的一些机器被装饰成了人的形状，就成了“机器人”。比如，当时曾出现过一种捣米机器人，其实就是在用杠杆传导的捣米设备上雕刻了一个人形。在宗教领域，这些在当时十分先进的技术当然也得到了广泛的应用。比如，在祭祀时，古埃及的祭司们会使用一种机械的神像。借助机械传动，这些神像可以做出如张嘴、伸手等简单动作。显然，这可以大幅增加祭祀仪式的神秘性。或许，关于奥西里斯的传说只不过是人们对这类宗教仪式的一个扭曲记忆罢了。

作为与古埃及交往密切的文明，古希腊对于机器人也很感兴趣。根据记载，和柏拉图同时期的匠人菲隆（Philon）曾发明过一个倒酒机器人。这个机器人的胸腔是一个放酒的容器，容器里的酒可以通过管道传输到它右手上的酒壶中。如果人们需要喝酒，就可以在其左手上放上杯子。然后酒就可以从酒壶自动流出，倒入杯中。可以想象，在当时的技术水平下，这种人形的机器给人们带来的震撼是十分强烈的。

我们现在已很难确知在古希腊究竟有多少机器被包装成了人形。不过，这些“机器人”在当时的话题性应该不会亚于今天的ChatGPT。事实上，就连亚里士多德都在自己的《政治学》中专门讨论了机器人代替人类工作后人类社会结构的可能变化——其论题选择的前卫程度丝毫不亚于两千多年后的学者。

这里需要说明的是，虽然古埃及和古希腊都已经创造出了所谓的“机器人”，但限于当时的科技，这些“机器人”充其量只能算是包装上了人形的机器，其结构非常简单，能完成的活动也非常有限。尽管如此，作为勾起人们想象的先驱，意义依然是显著的。

在此后的几百年中，人们一直尝试将最新的技术用到机器人身上。比如，11世纪，伊斯兰著名学者加扎利（Ismail al-Jazari）在发明了分段齿轮之后，就尝试着用它来改良了菲隆的倒酒机器人。到了1495年，“文艺复兴后三杰”之一的达·芬奇根据加扎利留下的资料，并加以改进，耗时十五年，终于造出了一个机器骑士。这个骑士可以依靠风能和水能驱动，并完成包括张嘴、摇头、摆手、坐起等动作。

在此之后，随着技术的不断发展，越来越多的机器人被发明了出来。到十八世纪，由发条和齿轮驱动的机器人已经非常成熟。在欧洲各国的宫廷内，就经常可以看到各种写字、画画、唱歌的机器人。甚至连当时的乾隆朝廷也收藏了一个写字人钟，只要打开开关，它就会工工整整地写出“八方向化，九土来王”八个大字。

十九世纪时，更多更为精巧的机器人被发明了出来。其中，最为著名的一个就是“土耳其行棋傀儡”（The Turk）。这个由奥地利工匠沃尔夫冈·冯·肯佩伦制作的机器人不仅可以说话，还能像人一样下棋，其棋艺还非常高超。在各国巡回期间，它不仅连续击败了多位当时的国际象棋高手——其气势颇为类似一百多年后的AlphaGo。可惜的是，后来这个机器傀儡在美国巡回演出时毁于火灾。不过，得益于这场意外，人们也终于解开了这个傀儡下棋的秘密：原来，在它的下方有一个暗格。下棋时，有一个真人的围棋高手进入其中进行操控，并通过话筒和对手对话。因此，土耳其行棋傀儡虽然精巧，但其本质依然是一个由人操纵的简单机器。

早期的现代人形机器人

进入了电气时代后，人们又很快将相关的技术应用到了机器人上。1927年，西屋（Westing House）公司的罗恩·温斯利（Ron Wensley）发明了一个名叫赫尔伯特·特利沃克斯（Herbert Televox）的机器人。从本质上看，这个机器人就是一个电路板，可以根据声音来控制开关，完成一些动作。只不过，这个电路板套了一个人形，就被当作机器人来售卖了。

不过，如此丑陋又缺乏实用价值的机器人实在是没有任何卖点，连广告公司都拒绝为其做广告。面对这种尴尬的境况，西屋公司不得不花心思来为特利沃克斯进行美容，不仅给它加上了手脚，还给它套上了一张华盛顿的脸。这种策略果然奏效。一番包装之下，一块简单的电路板就摇身一变成了一件引人关注的高科技产品，甚至连美国军方也对其表达了关注。

特利沃克斯的意外成功让西屋公司认识到了温斯利的才干。很快，他就得到了提拔，并有了自己的研发团队。经过多年的努力，温斯利团队在1937年推出了机器人依莱克罗（Elektro）。和特利沃克斯相比，依莱克罗有了很多进步。它已经可以根据操控员的语音指令完成包括走路、抽烟、数数在内的26种动作。尽管在现在看来，这些动作都十分呆板，且语音指令只能按固定的脚本进行，但在当时看来，已经非常惊艳。因此，有不少人认为，依莱克罗应该算得上是真正意义上的第一个人形机器人。

从实用价值上看，依莱克罗其实乏善可陈，不过其宣传意义却是十分显著的。此后，机器人就成为了一种时尚的代表，大量企业、组织和个人陆续推出了形形色色的机器人产品。比如，1939年由瑞典发明家奥古斯特·哈蒙发明的机器人可以接受无线电的指令并实现行走；1951年由美国人克利福德·兰蒂斯发明的机器人可以完成高尔夫球的挥杆动作；1953年出现的机器人加科（Garco）可以在人的操纵下完成多项任务；1963年由美国国家航空航天局（NASA）制作的“机动多关节假人”则不仅可以模仿三十多种人的动作，还能试穿宇航服。

需要说明的是，虽然在这个时期人形机器人呈现了百花齐放的态势，但这些机器人依然没有摆脱源自于古埃及的传统——从根本上讲，它们还是一件需要人操控的机器，本身毫无智能可言，其实用性也很弱。面对这种局面，人们对机器人的发展方向就产生了分歧。

一部分人认为，发展机器人，最重要的是让它们能够代替人类完成各种工作，至于它是不是和人类相似则无关紧要。基于这种认识，他们开始把着力点放在了非人形机器人的开发上。一个标志性的事件是1959年Unimate#001号机器人的发明。确切地说，这款由发明家约瑟夫·恩格尔伯格（Joseph F. Engelberger）和乔治·德沃尔（George C. Devol）联合开发的Unimate#001其实只是一个机械手。虽然不具备完整的人形，但它却可以非常好地仿照人手来完成各种复杂的工作。

由于其强大的实用性，Unimate#001在被发明后不久就被应用到了工业领域，执行装配、喷漆等多种任务。显然，相比于花里胡哨的人形机器人，Unimate#001这样的机械手实在是太实用了。因此，它的成功也将机器人的发展引向了另一个方向：更为侧重功能的非人形机器人取代了人形机器人，成为了机器人的主流。

不过，依然有一些人在坚持对人形机器人的开发。在他们看来，虽然从当时的情况看，非人形机器人确实有很多功能上的优势，但只有人形机器人才能适应更为通用性的任务。从长远来看，人形机器人才是主流。不过，以当时的人形机器人发展水平，这一切显然是空想，而要改变这一切，就需要给机器人赋予智能。

为人形机器人赋予智能

1973年，日本早稻田大学（Waseda University）发布了一款人形机器人WABOT-1。这款由著名机器人专家加藤一郎设计、以大学校名命名的机器人身高与真人相仿，可以以双脚行走，并完成搬运物品等工作，还可以用简单的日语和人交谈。和过往的人形机器人不同，WABOT-1并不是在操控员的控制之下完成这些工作。在它的身上，安装了人工视觉和听觉装置，手部也装有传感器。因此，它可以根据视觉、听觉，以及触觉来感知周围的情况，并自行调整动作。

根据控制论的观点，非生命体可以和生命体有很多共同点，而非生命体要像生命体一样具有智能，其关键就是要具有和后者一样对周围的复杂环境进行感知和反应的能力。要做到这一点，它就需要至少包括三个要素：感觉要素，运动要素和思考要素。

其中，感觉要素主要用来认识周围环境状态；运动要素主要用于对外界做出反应性动作；思考要素则负责根据感觉要素所得到的信息，得出应该采用怎样的对策。很显然，在我们之前提到的机器人当中，这三个要素是不全面的。更为确切地说，它们基本只具有运动要素，缺乏感觉和思考要素。因此它们都不能算具有智能，也不能实现自控。对比之下，WABOT-1则补齐了这三个要素，从这个意义上讲，它就和以往的机器人有了根本的不同，成为了真正意义上具有智能的机器人。

我国的国家机器人检测与评定中心曾对机器人智能发布过一个标准，照此标准，智能机器人的智能水平从低到高可以分为五个等级：L1是基础级，指已经拥有了一定智能水平；L2表示机器人可以和人实现半交互；L3表示机器人可以和人实现完全交互；L4表示机器人可以实现完全的自主行动；L5表示机器人可以根据环境实现自适应。如果套用这个标准，WABOT-1的智能大约处在L1的水平。

事实上，当时的研究人员也对WABOT-1的智能水平进行了测试，结果是其智能大约相当于一岁半的儿童。虽然这个智能水平并不算高，但它毕竟实现了机器人智能的“零的突破”，其标志性意义是十分重要的。

1984年，加藤一郎领导的团队又推出了 WABOT的新一代产品WABOT-2。WABOT-2的定位被设置为音乐机器人，它可以自行识别乐谱，并根据乐谱用手灵活弹奏电子琴。很显然，这比它的前辈有了很大的进步，如果套用前面的标准，它大约已经达到了L2的水平。

加藤一郎研究团队的成功一度重新激发了人们对人形机器人的兴趣。不过，很快人们就发现，在当时的技术水平下，要做出完美的人形机器人非常困难：一方面，要提升其智能水平很难；另一方面，让机器成功实现人的各种动作也并非易事。在这种情况下，除了少数机构，大部分研究团队又重新将研究的焦点移回到了非人形机器人领域。

人形机器人的两条道路

人形机器人再一次进入人们的视野是在上世纪末。1997年，本田公司推出了P3人形机器人。这款机器人安装有三维视觉和平衡系统，不仅完全实现独立依靠两脚行走，还可以自行识别障碍物并改变方向。甚至在被人推倒后，还可以自行站起。除此之外，它还可以和人进行语言互动，并按照语音指令和人交流。

2000年，本田又进一步在P3的基础上推出了阿西莫（ASIMO）机器人。与P3相比，这款机器人在性能上实现了非常大的提升。它不仅可以实现奔跑、跳跃等多种运动，通过视觉、听觉感应器规划路线，并避免与人类发生碰撞，还能与人用语音或手语进行交流。更为重要的是，它还可以完成很多复杂的活动，如为人端茶递水，甚至还能给人表演舞蹈——可以说，到了阿西莫这里，偃师人偶的传说才终于变成了现实。由于其强大的功能，所以阿西莫从推出开始就深受人们欢迎。

在随后的几年中，它不仅在全球范围内进行了巡回演出，还曾去纽约证券交易所充当了第一位非人类敲钟人。遗憾的是，由于阿西莫的成本非常高，致使其叫好不叫座，因而这款机器人在2018年就停止了研发。2022年，阿西莫的最后一次表演结束，这款风光一时的机器人也宣布退役。

虽然阿西莫本身的商业化并不成功，但它却向人们展现了人形机器人的巨大潜力。尤其是在艺术表演以及日常服务中，人形机器人的优势得到了充分展露。这就激发了很多企业重新对人形机器人予以关注，从而造就了新一轮的人形机器人热潮。在这一轮新的热潮中，人形机器人的发展大致上分为了两条路线：

一条是通过简化机器人的部分功能，对其成本进行控制，从而迅速达到商业普及的目的。该路线的代表是法国阿德巴兰机器人公司（Aldebaran Robotics）2006年推出的NAO机器人。尽管相比于阿西莫，NAO的能力还略显单薄，但其性能也达到了很高的水平。在行动上，NAO达到了25个自由度，可以实现行走、踢球等较为复杂的运动，甚至可以打整套的太极拳。在智能上，NAO可以自动识别周围环境，能看、听、说，并和人进行交互——按照前面说的标准，基本已经达到了L3的标准。更为重要的是，它还可以通过进一步编程，来对机器人的功能进行扩展。因为这些特点，NAO机器人一经推出就广受欢迎。

另一条路线则是对机器人的能力进行进一步的强化，从而让它可以完成更为复杂的任务。采取这条路线的代表企业就是波士顿动力（Boston Dynamics）。这家脱胎于麻省理工学院的企业有很强的学院派气质，当同行企业考虑如何开发满足市场的商业化产品时，它却花费了十多年的时间来专门研究机器人腿部的稳定性。这种“面壁十年图破壁”的精神让其在业内外获得了很好的口碑。

2009年，波士顿动力发布了人形机器人佩特曼（Petman）。这款机器人的设计目标是为美军实验防护服装。得益于前期在腿部稳定性研究上打下的扎实基础，佩特曼可以在不借助外部支持的情况下轻松实现站立、奔跑、下蹲、匍匐等工作，其灵活性和平衡性都非常好。不仅如此，它还可以调控自身的体温、湿度和排汗量来模拟人类生理学中的自我保护功能，因而可以很好地实现测试防护服装的目标。

2013年，波士顿动力推出了人形机器人阿特拉斯（Atlas）的原型机。这款机器人是在佩特曼机器人的基础上进一步优化而成的，从一开始就有非常好的性能。它不仅可以平稳地在碎石上行走，还可以在遭遇外力撞击之后迅速恢复平衡。

2016年，阿特拉斯正式发布一代产品。这时，它已经可以彻底摆脱电缆的束缚，靠着内置的电池包在路上自行识路行走。此后，阿特拉斯又经过数轮迭代。在最新的版本中，它已不仅能完成跑酷、后空翻、侧滚翻、前滚翻、180度空中转体、空中劈叉、360度空中转体等高难度动作，还能自主地在复杂的野外环境完成各种任务。如果按照前面的智能标准，它应该已经达到了L4的等级。

需要指出的是，虽然波士顿动力的人形机器人表现卓越，但这种精益求精路线的商业化前途目前依然并不明朗。过去几年，波士顿动力换了三个老板，先是被谷歌收购，后又转手软银，最近又被现代接手。在每一次收购前，买家都对其充满了希望，但随后，波斯顿动力“只问耕耘不问收获”的学院派作风却都让他们感到失望。需要指出的是，波士顿动力也并不是拒绝商业化，但其目前商业化最成功的产品是四足机器人Spot，而不是以阿特拉斯为代表的人形机器人。如此情况，不得不让人对其执着的发展方向打上一个大大的问号。

人形机器人向何处去？

我们看到，目前，人形机器人的发展已经达到了相当的高度，神话中的偃师人偶可以用现代科技完美实现。但尽管如此，要让人形机器人真正走入社会、走入家庭，似乎还有很长的距离。相比于技术原因，更重要的原因依然来自于经济层面。

单纯看性能，像阿西莫、阿特拉斯等型号的机器人已经达到了相当的水平，但它们的商业化都不算成功。究其关键，还是其成本过高。如前所述，在工业场景，人形机器人并没有什么优势，更为廉价、实用的非人形机器人已经足以满足要求。因此，如果人形机器人要追求商业落地，就更可能在消费场景。

但问题在于，对普通消费者而言，人形机器人的价格实在是太高了。以阿西莫为例，其单台造价在300万~400万美元之间。如此高的造价，要将其用于消费端显然是十分困难的。事实上，在阿西莫推出之后，其用途主要在演出，但其表演一场的演出费也高达数万美元。很显然，除了一些愿意“尝鲜”的订单，很难有客户愿意长期雇佣如此高价的机器表演者。尤其是随着元宇宙技术的发展，人们发现通过廉价的3D虚拟影像就可以取代这种昂贵的表演者，其需求更是出现了锐减。在这样的背景下，曾经风光无限的阿西莫也不得不黯然退场。

通过以上分析，我们不难得出结论：在技术已经达到相当高度的情况下，人形机器人的下一步发展关键应该是在性价比问题上。只有对技术发展、成本控制，以及功能开发这几个问题上做好权衡，人形机器人才可能真正地从科幻走向人们的日常生活。

目前，最积极从性价比角度寻找人形机器人落地突破口的企业可能当属特斯拉。在2022年10月1日的“特斯拉AI日”上，马斯克代表特斯拉非常高调地介绍了该公司的首款人形机器人“擎天柱”（Optimus）。根据大会现场的展示，擎天柱已经可以实现自主的行走，但其步伐并不算十分稳当。与此同时，现场还展示了一段关于擎天柱的视频。根据视频，擎天柱已可以完成搬运重物、给植物浇水等工作。不过，在运动和工作的过程中，它还需要一根牵引绳来进行引导。

初次亮相之后，擎天柱机器人收获了两种截然相反的评价。特斯拉的粉丝们普遍认为，擎天柱具有科技感，非常吸引人。但专业领域的人士对于这款机器人则更多表示出了一种不以为然的态度。毕竟，有阿西莫、阿特拉斯等机器人珠玉在前，擎天柱的表现几乎没有任何优势可言。

但如果我们仅仅把注意力放在技术层面，那就显然曲解了马斯克的意图。事实上，相对较低的性能或许正是马斯克的有意之举，因为这样就可以把成本有效地降下来。根据马斯克自己的展望，这种低成本的机器人将十分便于量产，在未来几年内，其产量将会达到数百万台。而一旦生产的规模上去了，那么规模效益和学习曲线就会推动其成本迅速下降。最终，擎天柱机器人的成本将可能被压缩到2万美元以下——甚至比一辆特斯拉汽车还低。如果是这样，那么这款机器人就可以真正进入家庭，被消费者接受。

除此之外，如果把马斯克最近的商业活动联系起来看，似乎还可以发现擎天柱机器人的另一个重要角色。从表面上看，马斯克最近的商业行为似乎是很混乱的：一会儿买推特，一会儿又投资大模型团队，似乎并没有一个焦点。但其实，这一切行为很可能是马斯克试图在打造一个完整商业生态的尝试——推特是最好的数据源，它可以作为大模型的宝贵训练材料；大模型则可以给机器人赋予更高的智能水平，并大幅提升机器人的交互能力。

如果做到了这一切，机器人就更容易得到人们的欢迎，从而为其进入人们的生活扫清障碍。一旦机器人进入了家庭，它就可以通过实践获得更多宝贵的数据，这不仅有助于其性能的提升，还可以为特斯拉的其他商业活动做出贡献。从这个意义上看，擎天柱机器人很可能不只是一个单纯的产品，而是未来特斯拉商业生态中的关键一环。

特斯拉的这条路能走通吗？我们暂时还不得而知。但从特斯拉汽车的经验看，其成功的概率似乎还是比较高的。更值得期待的是，似乎在同一时间，很多其他企业也在开始与特斯拉相同的尝试，其中就不乏小米、宇树等中国公司。相信在不久的将来，我们就可以以一个相对低的价格拥有自己的人形机器人。

本文来自微信公众号：经济观察报观察家（ID：eeoobserver），作者：陈永伟