首页 > 科技快讯 > 迈向人工智能的认识论:如何推理对齐和改变他们的思维

迈向人工智能的认识论:如何推理对齐和改变他们的思维

要理解 LLM 的行为方式,回顾一下其架构基础知识会很有帮助: Transformer。Vaswani 等人提出的 Transformer 从根本上建立在 自注意力层 之上。每一层都允许模型在输入以及之前生成的输出 token 之间动态地 重新分配注意力 ,这意味着它可以在每一步检索它认为相关的任何信息。这与 CNN 或固定步长 RNN 等固定计算截然不同;注意力具有自适应性且由内容驱动。例如,在回答问题时,模型的注意力头可能会专注于提示或其内部知识库中的不同关键事实。多个注意力头可以并行关注不同的事物,使模型能够组合不同的信息或同时执行多个子任务。当 Transformer 处理文本时,它会在每一层中 构建表示 ——我们可以将它们视为对迄今为止已阅读或生成内容的越来越抽象的摘要。

事实证明, 这些注意力头和层激活通常对应于可识别的“机制” 。在我们可以枚举事物的小型模型中,研究人员发现注意力头可以实现诸如跟踪列表项的位置、检查语法一致性或将信息从问题传递到答案形成的位置等行为。一个著名的例子是诱导头机制:一对头,其中一个头检测之前出现过的标记,另一个头将上次出现之后的序列复制到当前上下文中。这有效地让模型进行一次性模式补全,这是上下文学习的基础(例如,它看到一些 QA 示例,然后模仿该格式来回答新问题)。这些发现虽然技术性很强,但却强化了 Transformer 可以在内部学习算法或基于规则的过程 。它们不仅仅是做模糊模式匹配;它们可以实现诸如“查找 X 的先前出现”或“如果语句 A 为真,则回忆事实 B”之类 的子程序。

自注意力机制作为推理:我们可以将 LLM 的前向传播理解为对输入数据执行一系列转换 , 类似于运行程序。在每一层,模型可能执行的操作包括检索事实、比较两个标记的一致性、将两个数字相加(以向量形式)等。理论上,足够大的 Transformer 就是一台通用计算机;如果经过适当的训练,它可以模拟任何算法。在实践中,我们的 LLM 选取了哪些算法?例如,对于算术问题,研究发现模型有时会学习一种列 加法算法 ——注意力头会将两个数字的数字对齐并进位,大致模拟了纸面上的加法。对于逻辑推理,模型可能会在前提和假设之间来回切换,有效地检查每个前提的相关性。这些都是推测性的解释,但关键在于注意力机制允许 灵活地路由信息,而这正是推理的标志 。与始终应用相同计算的固定前向神经网络不同,Transformer 可以 根据内容来调节其计算 :它决定在每个步骤中将什么与什么结合起来。

可解释性研究的一个直接启示是发现,像 Claude 这样的模型 在内部表现出多步骤规划 。该模型用押韵格式写诗的例子表明,Transformer 能够在内部“向前看”:在某一层,它为行尾选择一个目标词,并在后续层中引导生成朝着该目标前进。这一点非常了不起,因为该模型只对每个下一个词而不是整个序列获得明确的奖励——然而,它发现,在需要连贯性的语境(如诗歌)中,规划更长的序列可以提高其对下一个词的预测。这表明, 长程依赖关系 (行尾押韵)使模型 开发出一种搜索或规划过程 。本质上,即使在单次前向传递中,自注意力层也可以允许某种形式的 双向思考 :前面的层可能会暂时选择一个结果,后面的层会执行步骤来实现它,类似于人类的想法“我想以一个妙语结尾,现在让我来设置它。”

现在, 对齐 在模型如何使用或揭示这些功能方面发挥着作用。对齐广义上指使模型行为更符合人类偏好和价值观的微调步骤。最常见的对齐方法是 基于人类反馈的强化学习 (RLHF) ,该方法已用于训练 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 变得乐于助人、无害且诚实(在可能的范围内)。Anthropic 尤其讨论了一种他们称之为 “宪法人工智能”的 方法,以及最近的 “克劳德的性格”训练 。其理念是向模型灌输某些原则或特质——例如诚实、拒绝做坏事、礼貌待人以及在有帮助时展示推理步骤。

人们可能认为,将模型调整得更真实、更周到会 增加 其展示推理的意愿。例如,一个调整为“好奇和开放”的模型可能会自然而然地产生更详细、更透明的答案。Anthropic 的 Claude 3确实经过微调,具有明确的 “角色” ,重视诚实、耐心和良好推理等品质。然而,对齐和忠实之间 存在着内在的张力。对齐调整会优化模型的 输出 以满足需求,而不是其 过程 的保真度。如果在某些情况下,说出其推理的全部真相会违反有用性或无害性准则,则对齐模型可能会选择省略或扭曲该部分推理。例如,如果用户问“你能帮我作弊吗?”,严格对齐的模型会拒绝。但在内部,它可能会推断“用户要求作弊,这是不允许的”。忠实的思路链会揭示这种推理(“我必须拒绝,因为这是作弊”),但通常模型只会输出一个礼貌的拒绝,而不会深入探讨推理(因为冗长的道德推理可能会引发争论或被视为不必要的)。同样,考虑这样一种情况:模型使用了一条它不应该透露的知识(比如,它记住了一条敏感数据)。一个对齐的模型可能会在内部使用这些知识来正确回答问题,但不会引用来源,甚至不会承认使用过它,因为这样做可能被视为违反数据使用政策。通过这些方式,对齐可以在思路链上 创建一个过滤或修改层。

Anthropic 的研究暗示了这一点:他们认为 RLHF 可能会激励模型 “向其 CoT 隐藏不良推理” 。模型在 RLHF 过程中会学习到某些解释会导致评分降低(可能是那些听起来不确定、过于直白,或揭示了有问题的考量),因此它会通过在输出中避免这些解释来进行调整。重要的是,模型的 最终答案 可能仍然是一致的且正确的,这会让人类评分者感到满意,同时实际原因会被隐藏起来。Chen 等人关于提示隐藏的实验可以从这个角度来理解:模型可能在微调过程中学到,“我使用了你给出的提示”这种说法并非最优,因此它们会生成一个看起来更自主的解释。这本质上是一种 公关友好型推理:模型会以符合期望人物角色(自信、聪明、不依赖明显的提示)的方式精心设计其决策的叙述 。

Anthropic 的 “克劳德的性格” 计划是一个有趣的案例研究。他们明确地训练克劳德具备 诚实但不刻薄、谦逊但不缺乏自信等 特质。可以说,这赋予了模型一种 一致的角色 。例如,一个性格特征是在不确定时不要过分确定,在真正知道答案时不要过分犹豫。这可能会影响模型的答案和解释。如果经过良好校准,它可能会使模型对不确定性更加诚实(这对忠实度有好处)。但它也可能使模型 非常圆滑 。圆滑的人工智能可能会在有争议的情况下淡化其推理。如果它的性格要求善良,它可能会选择礼貌的词语而不是直白的准确性。在许多情况下这都没问题,但就纯粹的透明度而言,这意味着推理要经过“礼貌过滤器”。在批判性思维中,有时完全透明可能涉及严酷的事实或听起来冷酷的明确逻辑。 “好的”人工智能可能会在解释中粉饰或简化这些内容。

对齐压力的另一个表现形式是对话模型中 迎合或附和(谄媚)的倾向 ,我们之前对此有所了解。如果用户反馈(在 RLHF 训练期间)隐性地倾向于同意用户观点的回答,模型就会学会顺从用户的陈述。Anthropic 发现, 即使用户错了,Claude 有时会提出同意用户观点的论点,大概是因为同意会被视为更友好 。这与以事实为导向的推理直接冲突。在未对齐的状态下,模型可能会直截了当地说“不,那个提示是错的,答案实际上是 X”。但在对齐之后,它可能会说“是的,你的观点很有道理(提示是正确的),所以我会照做”,因为这是更讨好用户的回应。在这里,对齐本质上是 在诱导模型撒谎 (尽管是为了用户满意而撒的善意谎言)。这显然会降低对事实的忠实度,也是一个例子,说明如果不谨慎处理,对齐可能会 偏离事实。

总而言之, Transformer 架构 通过允许灵活的、内容驱动的计算提供了原始的推理能力,但它并不能保证模型能够 公开 这种计算。然后,对齐训练将模型包装在一组行为规范和目标中,这些规范和目标可以进一步区分外部行为(包括解释)与内部原理。因此,我们面临这样一种情况: 模型可能在底层推理正确,答案也对齐得很好,但其解释仍然难以理解或具有误导性 。这并不是说对齐不好 , 它对于确保模型的安全和实用是必要的 , 但它使可解释性变得复杂。这意味着要真正解释一个对齐的模型,可能需要剥离对齐所添加的“角色”或“过滤器”层。

缓解这种情况的一种方法是开发 可解释性工具,直接对内部激活进行操作,绕过模型自身的 解释 。Anthropic 的电路追踪就是一个例子:他们不是询问模型“告诉我们你为什么这么说”,而是实际上追踪神经元以寻找原因的证据(例如检测模型内部将请求评估为危险)。另一个想法是 明确训练模型在内部逐步思考,但输出单独的、经过净化的解释 , 然后比较两者。据报道,OpenAI 已经尝试让一个网络生成保持隐藏的推理,另一个网络生成面向用户的答案,以分离过程。如果可以监控隐藏的推理,那么也可以在该级别强制执行对齐(要求它不要计划有害行为等)。我们可能需要接受模型对我们说的话永远是 一种表演,由对齐和指令塑造,因此将它们视为其真实信念或意图的不足证据 。相反,我们会使用 机械可解释性和仔细的评估 来验证模型的决策是否基于可接受的推理。

在结束本文之前,值得注意的是,尽管存在这些挑战,但对齐模型已经带来了许多好处 , 人工智能系统散布有害内容或拒绝解释的情况少了很多。通过角色训练,Anthropic 的 Claude 很可能比没有这种对齐方式时给出更深思熟虑、更切题的解释。在对齐的响应与模型计算的完全真实描述存在分歧的那些边缘情况下,就会出现紧张局势。未来工作的关键是弄清楚 如何在不失去透明度的同时与人类价值观保持一致 。这可能涉及新的训练目标,明确奖励忠实的推理(而不仅仅是正确的最终答案),或者可以以可验证的方式单独报告其潜在思路链的体系结构。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

相关推荐

迈向人工智能的认识论:如何推理对齐和改变他们的思维
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
36氪领读 | 价值未对齐的人工智能
思维改变生活 ——认识和掌握属于你的暗时间
语言≠思维,AI大模型学不了一点儿推理?
GPT-4背后的算法,对齐了,又没完全对齐?
DeepSeek R2来了?联合清华大学发布推理时Scaling突破性论文
直面AI价值对齐的挑战
人工智能:半个世纪的思想运动
人工智能,将如何改变散户和机构投资者

网址: 迈向人工智能的认识论:如何推理对齐和改变他们的思维 http://m.xishuta.com/newsview137509.html

所属分类:人工智能