首页 > 科技快讯 > “人工智能那一套，对具身智能来说远远不够”

“人工智能那一套，对具身智能来说远远不够”

晰数塔互联网快讯
2024-07-12 21:05

大家好，我今天给大家汇报的题目是《具身智能如何赋能产业？》。

首先，咱们说说传统的具身智能。传统的AI大多是“纸上谈兵”，在离身数据集上做强化学习，这种强化学习没有考虑到感知和行为在环境交互过程中的合理性，特别是感知和行为过程中得到结果的好坏对认知决策的影响，这些统称为“内体作用”，也就是说机器人认知过程中知识的更新、生长，包括物理层面的发育。

由此我们就开始研究具身智能。具身智能是通过感知和行为的与物理世界的交互，通过内体作用，进行决策和行为，我们把它叫做“身体力行”。讲一个例子，比如说一个服务机器人在洗碗，有用户跟它开玩笑，它洗干净了给它弄脏，它看到了之后又把碗洗干净，这个过程需要交互过程才能完成。传统的话，用数据集训练的策略，在洗完碗之后就结束了，别人再把脏东西放进去它也不会再洗。所以只有通过这个过程，即“具身”才能实现。

1963年，麻省理工学院Richard Held教授举了一个例子，五对猫做学习训练，一个是用别人的数据集训练，一个是在物理世界训练，结果在物理世界的训练猫学会了行走。这个例子进一步说明具身的重要性。实践出真知，讲的就是这样一个道理。

关于具身智能体和通用操作

2021年ICRA2021世界机器人大会上我有幸做了开幕式后的第一场大会报告，我当时就提出了“具身智能体”的概念。具身智能具有感知体和行为体两个实体部分，行为体，如操作末端在生产线上和作业现场完成各种各样的任务，还有一个部分是认知体，就像人一样，能够运用大量的知识进行认知与决策。具身智能很重要的一个功能叫做“外感知，内体作用”，这个内体作用是知识的生长与更新，如对书本上错误的知识进行修正。所以我们提出了从感知体、认知体和行为体，通过感知和行为的交互来实现这样的内体作用，包括知识的更新、生长与发育。

下面再看一下通用操作。首先，我们在生产线上也好，在其他场景也好，我们特别希望机器人能够做通用操作，它必须面对各种各样的物理形态，包括规则、不规则、尺度变化很大的物体，都能实现操作。第二是机器人要做多任务，包括能做任务的生成。比如说手术过程中发现出血了，这个事先根本没有考虑到这个问题需要生成止血的任务，所以任务生成也是在通用操作中必须要具备的一种能力。第三，它要针对操作过程中操作目标的形态和姿态的连续变化，我们模拟了人的大小脑、外周神经和中枢神经系统是如何控制手的操作。

过去离身的强化学习是通过跟环境作用产生奖惩机制就可以，而这个奖惩机制产生的效果好坏是不考虑的，现在具身强化学习既要考虑到模型如何有利于产生决策，还要考虑决策反过来如何不断优化模型，这里用到了非常重要的神经符号系统来作残差，通过残差来做知识更新的过程。再一个是可以把强化学习，无模型的强化学习如何跟控制理论中的模型预测控制做有机结合，进一步提高增强智能体对数据和操作环境的适应能力。

我们还做了一个很重要的工作，我们用GNN GNN模拟外周神经，模拟人操作过程中的肌肉和关节的形态变化，通过多智能体模拟中枢神经系统和模拟人的小脑如何通过与环境的交互过程实现行为的控制。最后把这些技术集成到“空间行为体”。这个空间行为体一方面通过几何深度的学习来对操作物体的形态和变化来进行建模，二是要学习形态的变化和操作行为之间的映射关系。另一方面，还要考虑实际行为与规划行为的偏差，研究如何利用这个偏差来实现知识的增长、更新包括发育过程。

具身智能的产业赋能

接下来讲一下产业应用问题。具身智能特别强调的是“虚实一体”，要求计算机生成的操作环境与物理世界高度一致，所以一个很重要的方面，是对物理环境当中的各种实体建立物理属性，比如说杯子有多重，转动惯量是多少，泊松比等，它对光的折射是多少，这是第一个根本变化。第二个变化是要考虑实体在物理环境相互作用产生的力觉和听觉，并如何把它做进去。

这就涉及到好几个建模的技术。第一，触觉和听觉怎么建模，在触觉建模方面我们提出了“粒子交互”的建模方法，可以非常精细地建立实体之间相互作用的触觉。第二，神经辐射场的方法，相信腾讯也有很多人在做，适合视觉环境下的物体的颜色、纹理和变形的建模。第三，是各个连接部分的建模，最后通过融合就能形成我们所说的物理数字系统，而这个物理数字系统是具身智能中非常重要的部分。我们在一个和物理世界高度一致的环境中训练出来的策略，更能适应物理世界。

我们过去用预自适应、预随机化和知识蒸馏等方法提高迁移学习的鲁棒性和泛化能力，但是在物理世界中显得很不够。我们能不能分析出计算机世界训练的策略误差和物理世界的策略误差，究竟存在什么样的关系？我们团队目前已经给出这个关系。通过这个关系，我们就知道误差的上界是多少，虽然很保守，但是另一方面这个上界又反过来能指导我们物理数字系统究竟如何构建。我们有一篇相关文章，大家可以在网上看到。

第二个比较重要的是，具身智能特别强调内体作用，要对各种感知、认知、操作和运动建立知识库。我讲一个非常简单的例子，人是怎么来做知识学习？人这双手就是通用的，从小学会写字、学会做各种实验、各种装配等，当然运动员、电影演员能够做出常人做不出来的各种行为，这些行为是由技能组成的。我们学到了大量的技能，把这些技能在空间和时间组合，就形成不同的任务。那我们能不能把人的学习过程教给机器人？

人的学习过程一般可以分为三个阶段：第一，认知阶段。比如说体育课体育老师告诉我们怎么运球，怎么射门，要领要学会。第二，精炼阶段，要巩固不断精炼学到的要领和原则。第三，自主阶段，我们把这个看成跨任务和多任务学习，这个过程使我们对技能的运动达到如火纯青的地步。

今天我们把初学的过程对应到机器人的模仿学习，比如说把苹果放在桌子上，就可以把它看成有三个技能组成，包括找苹果、抓握苹果、放置苹果。找苹果包括眼睛搜苹果，检测苹果两个动作基元，而搜索苹果背后是一个向量，我们叫语义的向量表示。比如说在哪里开始搜，速度是多少，什么时候停下来，这是具身智能的很重要的一部分，一定要做向量表示，实现知识和数据的统一处理，这在AI里叫“词嵌入”。

很多人会问我，很多熟练的工人在生产线上，比如说手机装配的贴胶、贴膜，通过十几年的工作，他们的动作行为非常标准和规范，我们能不能有一种感应式建模方法呢？我们谈到了感应式的技能解析，通过视觉、触觉和听觉就能把操作行为转化成前面谈到的技能。比如说视觉主要是拓扑学习，而触觉和听觉主要是基于事件。现在解析的准确度可以达到96%。

如果把大模型用在一个特定场景中，首先要做场景库，这是一个具身智能和其他地方不一样的点。具身智能要建大量的操作场景的知识库，这种知识库不是大家拿个手机拍个照片，而是一个物理数字系统。比如说这里面的车有重量，它的运动速度和各种物理属性都要具备。这里涉及到一个知识，比如说移动操作按钮是一个任务，需要三个技能去做，如何把这些知识用到具体场景里呢？这就有一个很重要的场景适配，适配之后才能做优化。比如说把苹果放在桌子上，苹果可能在任何一个位置，而描述的操作技能都是一样的，必须要把操作的技能和场景适配。

这个例子谈的是无人驾驶，一个超车驾驶需要三个技能，这个技能库也要适配到场景当中。3C装配中比较核心的“打螺丝”，同样也要适配。这里谈到的插线，尤其是不同尺寸类型的软排线，也要把技能与场景适配。

由此看到大模型用在具身应用方面，跟现在的大模型不一样的地方在哪里呢？首先要建立大型知识库，这种知识库可能是人工建的，也可能是感应式的。第二是要建场景库，这对未来的算力提出非常高的要求，如果要作物理数字系统和通常的视觉点云，相比整个存储大概要增加1000倍。第三是要通过大模型做任务规划，第四是做场景适配，再做优化，才能把大模型用在具身智能当中。

我们用机械臂来完成软排线的装配，末端有一个执行器，和通常的二指夹爪是不一样的，这是我们的创新。这是多指，即超过五个指的末端执行器，它能够根据操作对象的物理形态变胞形成操作构型的变化。我们团队基于前面介绍的工作，今年参加了在日本ICRA2024的操作抓取比赛和Sim2Real，只参加了这2个项目的比赛，均取得了冠军。在3C装配这方面的项目很幸运地拿到了日内瓦国际发明展的金奖。

在未来发展上，具身智能带动的另外一场革命将会是传感器技术革命。具身智能传感器，第一，需要把智能计算前移，也就是说传感器自身具有对数据的处理能力；第二要有行为能力，这是对具身智能传感器技术来说非常重要的革新。而这些对算力也提出了巨大的要求。

我们团队研制的基于微视觉的触觉传感器，在指尖上实现了一平方厘米500个点，通过超分可以做到5000个点，分辨率达到0.2毫米。研制的电容式触觉传感器分辨率达到0.625，研制的压阻式触觉传感器，分辨率达到1毫米，装配一只灵巧手的费用是1.5万元。

具身智能未来发展和四个要素有关系：

第一，本体技术，比如说人形机器人，现在两条腿做得很不错，但是两只手普遍不行。如何让机器人的两只手做得更好，也是未来人形机器人发展中比较重要的部分。

第二，具身智能需要知识+数据+场景。这里场景一定是物理数字系统。我们搞工科的人和文科的人不一样在哪里？我们要有实验室，可以做实验。据说，一些人具有做思维实验的能力，爱因斯坦和霍金都具有做思维实验的能力，爱因斯坦的很多论断现在验证都是对的。大模型也可以做物理实验，这是具身智能需要的。

第三，具身智能体，能够实现感知和行为与物理世界的交互，同时实现知识的生长、更新和发育。如机械臂上的传感器、天花板上的传感器，如何让各种资源实现智能体的状态表示，同时如何在大脑的控制下，让智能体能够发现模型建得不对。主动感知是未来具身智能非常重要的部分。

第四，学习和进化的构架是具身智能中非常重要的部分，它不光包括软件层面，还包括硬件层面，比如说知识怎么更新。还有一部分是物理发力，经常踢球的人腿会变得很粗，未来机器人也需要这样。

本文来自微信公众号：腾讯研究院（ID：cyberlawrc），作者：孙富春（清华大学计算机科学与技术系教授，博士生导师，IEEE/CAAI/CAA Fellow，国家杰出青年基金获得者；兼任清华大学校学术委员会委员，计算机科学与技术系长聘教授委员会副主任，清华大学人工智能研究院智能机器人中心主任。）