首页 > 科技快讯 > 一文读懂：通用智能的本质是什么？

一文读懂：通用智能的本质是什么？

晰数塔互联网快讯
2024-08-29 16:27

一、什么是通用智能？

通用智能的核心定义是，一个智能体在不对环境做任何假设的情况下，具备依靠推理解决问题的能力。

举个例子，人是典型的具有通用智能的生物。人类能够在不对复杂的生活环境做出预设的情况下，通过自己的智能进行广泛推理，解决各种需要处理的问题。例如，当我们出门时，无法预设是否会遇到地震、海啸，或者前方是否会有车祸等突发事件。人类正是在这样不确定的环境中，依靠通用智能进行判断和决策。即使这些事件发生了，我们也能根据情况进行推理，以达到预期的目标。

因此，就本质而言，通用智能可以被视作环境的映射，是环境的产物。有怎样的环境就会产生怎样的通用智能，无法凭空变出新的事物。相对于人类所处的自然环境，通用智能依托的环境是数据，它也涉及反馈和压缩的过程，类似于自然环境的进化，只是变成了计算过程。

同时，需要特别强调，这里的推理指 reasoning，而不仅仅是简单的推断结果（inference）。推断是从已有的证据或前提中得出结论的过程，可以视为推理的结果或产物。相较于推断，推理更强调思考的过程和逻辑步骤，进而找到解决问题的方法。

1. 通用智能的前提：不对环境做任何假设

通用智能不应依托先验假设，而应当随着环境的变化而变化。关注技术细节的创业者或研究者可能会注意到理解模型和生成模型之间的差异。然而，理解模型作为一个单独的概念在某种程度上可能会带来误导。

当下，大家在谈论理解模型时，主要关注它是否具备辨别能力，能否进行分类和分割。这是由于人类自己会关心这些问题，但人类的先验知识恰恰是最大的问题，即使它也带来了机会。

举个例子，如果我们在 500 年前构建大语言模型，它一定会说地球是平的，太阳围绕地球旋转。而 500 年后构建大模型的人，则会嘲笑今天人类的愚蠢。因为人脑只有 15 瓦的功耗，思考能力非常有限，只能处理非常局部的问题。

从这个角度，人类是否能理解这些模型一点也不重要，我们真正应该关注的是模型的压缩能力。压缩得好不好决定了下游任务能否做好。更重要的是，模型能否在没有先验假设的情况下，根据环境变化进行调整和优化。

如果我们想象一个很大的符号空间，存在各种各样的符号序列，人类能理解的符号实际上只是空间中的一个很小的部分，通常是局部最优。如果我们追求能让人类理解的模型，那么势必会放弃许多全局最优、更好的解决方案。

2. 通用智能的内核：推理

正如人的本质在于不断地感知、理解环境，并进行推理，通用智能的本质也是推理。而推理的核心是，针对任何任务，都能够找到一条完成任务的路径。

推理水平的高低取决于智能的程度，这通常反映在推理路径的长短上。面对同样的问题，聪明的人可能只需要两步就能解决，普通人则需要更多的步骤。

更具体的，推理路径效率是反映推理质量的重要指标，包括时间和功耗两个方面。针对同样的问题，既要看解题的路径，又要看花费的时间和功耗。举个例子，今天的 OpenAI 某种程度上是大人欺负小孩。回答同样的问题，GPT-4 确实显得更聪明，但它花了很多时间，消耗了大量算力。真正好的比较方式应该是框定一定标准。如同拳击比赛，选手按重量级分别比拼，通常不会要求一个 200 磅的人和一个 60 磅的人进行对抗。

因此，综合来看，真正意义上的聪明或智能是在相同的时间和功耗下，能够找到一条更好的、更短的推理路径。

3. 通用智能是数据的产物

那么，要找到更好的推理路径，关键是什么呢？答案是数据。

鉴于通用智能所依托的环境是数据，它也可被视为数据的产物。我们需要重点关注两类数据：任务路径数据和思考路径数据。任务路径数据来自对环境的观察和实验；思考路径数据则涉及逻辑、思考体系和思考框架。

例如，给定做蛋炒饭的任务，做这道菜的具体步骤和顺序就是任务路径数据，如打鸡蛋、放油、放盐等。这些数据需要做实验，变不出戏法。但在做蛋炒饭前，还需了解吃饭的人数，该做什么口味，这些是有关任务整体规划和决策的思考过程。也就是，为了完成这个任务该如何思考，属于思考路径数据。

OpenAI 的 Strawberry （或者 Q-star）项目所做的一件重要的事就是放大思考路径数据。如果我们能获取的路径数据越多，搜索的范围越广，就越可能找到更好的解决任务的途径。当下大多数人关注的合成数据，其主要的目的之一就是合成思考路径数据，而任务路径数据可以通过观察来采集。

二、通用智能带来了什么变革？

通用智能带来的本次变革，本质上是技术方法论的转变。同时，其代表了一场根本性和全面性的科技革命，涵盖科学、技术、生产力和发展模式的全面变革。

1. 能力提升由规模化扩展实现

从技术方法论的角度，纵观人类技术史，迄今为止，人类建立的所有能力都是通过“工程化构建”（Engineering by Construction）的方法来实现的，包括蒸汽机、飞机等重大发明。

然而，通用智能的能力不是通过简单的工程化就能构建而成，而是需要通过“规模化扩展”（Scaling）。正如大自然，自然并没有通过工程化构建来创造任何东西，而是依照内在规律不断进化。宇宙、生命体和人类社会中的大规模复杂体系，都是通过规模化的成长而不是建造出来的。

这也意味着，通用智能时代开发的智能体，已不能通过简单编写代码和模块实现，需要建立一个评估体系来定义想要的和不想要的行为。通过持续的数据输入和优化，才能使智能体逐渐规模化扩展。

2. 根本性的、全面的科技革命

从科技革命的角度，通用智能的崛起改变的不仅是我们对智能的理解和应用，同时也是一场从基础科学到生产力的全面革命，将推动社会进入一个全新的发展阶段。

首先，通用智能是一门全新的科学。其研究的是通用智能的形成过程，包括原理、实现方法和应用领域等。这门科学的研究对象不仅限于硅基，还包括碳基，甚至其他基体的智能体。目前，通用智能尚处于早期阶段，如同“炼金术”，还没有成熟的理论，只能通过不同元素排列组合的实验进行探索。然而，一旦我们对通用智能有了深入理解，就有机会重新构建数学、物理，乃至人类目前所依赖的整个科学体系。

其次，通用智能是全新的技术物种。技术本质上是人类行为的一种延伸。类似于达尔文进化体系，技术会随着环境和需求的变化而不断演化。任何新技术都不是全新的发明，而是在过去的基础上找到新的组合，即技术的重新组合。大模型也并非从无到有，而是基于前几代人工智能模型体系增长而来。

同时，通用智能是一种全新的生产力。人类的生产力是阶梯型的，最底层是科学，其上是技术，再上是生产和流通等环节。这次底层的变革重塑的是人类生产力的整个堆栈。一旦具备了通用的推理能力，我们就能解决几乎所有满足人类需求所要解决的问题。

再次，通用智能代表了技术发展模式的转变。正如前文所言，其能力构建不再由线性的工程化实现，而是通过数据驱动和规模化扩展来完成动态地优化和进化。

最后，通用智能的具象可以是一个浏览器（Browser），也可以是移动应用程序、智能手机、机器人、汽车，或者是一个房间。这些通用智能系统可以根据人类需求定制其环境和外观。展望未来，通用智能模型将如同今天的生命体，变得更加多样化和复杂化，呈现出繁荣的景象。

三、如何构建通用智能？

在理解通用智能本质的基础上，我们可以进一步探究如何利用通用智能来创造新的价值。这需要我们厘清三个关键点：模型的范围（端到端）、模型与环境的交互形式（具身），以及模型的核心任务或目的（生存和减熵）。

首先，要构建通用智能，尤其是构建任何一个产品，必须明确范围。如果不做范围内的端到端解决方案，就无法实现通用智能。只有明确了这一点，才能真正理解通用智能的应用。

过去，由于模型的容量（Capacity）不足，无法实现端到端的解决方案。但现在，尽管模型仍不完美，其容量已经足够强大。只要数据中存在熵结构，并给模型足够的计算资源，模型就能够在处理过程中将这些结构融入其激活函数的维度，并在关键的前馈结构中体现出来。用更直白的方式描述，即数据中存在的任何有规律性（regularity）的信息，都能被模型“吃”进。

其次，具身可以被视作通用智能的交互形式。通用智能在某种程度上是“感知-推理-行动”三位一体体系的具象化。数据作为感知的一部分，承担获取信息、对信息进行处理，并与环境交互的功能。通过对数据进行计算来实现通用智能同样遵循一种特定的模式：数据导入后进行编码，映射到高维度的向量空间中，然后通过解码生成具体的行动具象。

最后，通用智能最重要的是任务和目的，是生存和减熵（压缩）。和人一样，技术也需要生存，要进化、发展。如果有其他技术比现存技术更有效，后者就会被淘汰。因此，模型首先也需要生存，要在同样的环境/范围内，比潜在的替代品更优。比如，更便宜的、功耗更低的，一样能做推理的模型，它的生存力就更强。可以看到，当下活跃的模型，其参数规模都相对较小，如 GPT4o mini、Mistral、DeepSeek v2 和 Qwen。当然，模型本身也需要压缩（减熵）得更好。

反观 OpenAI 最初引导的路径，即推理要足够好就要做一个很大的模型然后进行微调。昂贵的成本会导致模型难以在产业中得到应用。如同一个人什么都学会了，进入公司工作，却只需完成很小的一个任务。这条路在某种意义上，只有在国家层面而非企业层面行得通。许多模型本身是无法生存的，因为构建这些模型的人和他们的公司无法维持下去。正是由于它的模型成本太高，社会无法接受，而同时市面上又存在其他更好的替代模型。任何能生存下去的事物，都是因为它没有替代品，没有谁比它更适合在环境中完成任务。

关于上述三个核心要素在现实中的体现，可以举个简单的案例。如果一家公司主营业务是酱油生产、制造和销售，那么它的环境就是工厂。采购大豆、运进工厂，经过发酵、加工等系列生产制作流程，产出酱油再卖出去，这就是这家公司的范围。

在上述案例中，我们需要清楚地知晓，使用模型的目的是把整个做酱油和卖酱油的过程压缩到最好。目前，我们主要依靠人脑来思考如何制作更好的酱油，卖给谁，如何提高单价，如何拉动需求增长等。未来，在这个范围内可以利用模型进行各种通用推理，以实现业务效果的大幅提升。

总的来说，要利用好通用智能的能力，一家公司需要回答好环境中有什么数据，怎么采集，以及通用智能怎么和环境做交互等问题。

本文来自微信公众号：奇绩创坛，作者：奇绩创坛