(转自:知危)
最近,网上出现了一个 AI 幻觉引发的闹剧。
7 月 2 日,网上突然出现大量 “ DeepSeek 就 AI 模型违规关联向王一博道歉 ” 相关内容,最终被发现其实是 DeepSeek 在对话中虚构了事件甚至引用了一份在中国裁判文书网上完全查不到的判决书。
而这场闹剧,源于 DeepSeek 在与用户对话过程中产生的幻觉。借此,知危编辑部认为有必要探讨一下 AI 大模型们激增的幻觉率了。
前段时间,OpenAI o3 模型刚发布不久,也因为幻觉率 “ 不降反升 ” 的现象引发了广泛关注。
OpenAI o3 模型会犯很多匪夷所思的错误。比如,捏造从未运行过的代码,在编码设置中使用无效的非 ASCII 破折号,甚至还会假装自己在调用工具。
在 PersonQA 基准测试中,o3 会在 33% 的问答中出现幻觉,几乎是o1( 16% )的 2 倍,o4-mini 的幻觉率更是高达 48%,远高于此前发布的推理模型。
近期发布的其他深度思考模型也出现了类似的规律,即随着推理能力增强,其幻觉率也反而更高。
艾伦人工智能研究所科学家 Nathan Lambert 曾发文评论 o3 的推理幻觉,表示这一问题的出现是由于 RL( 强化学习 )过度优化。
比如典型的“ 奖励黑客 ” 现象,Nathan Lambert 举了一个例子,他们曾在 MuJoCo 环境中让一只猎豹学会快速奔跑,最终猎豹通过侧手翻动作而不是跑步实现了最大的前进速度。类似地,o3 假装使用工具很可能是由于 o3 在训练时若成功调用工具能使其获得奖励。
对应到推理模型,则表现为答案是正确的,但推理过程却是错误的,或者和答案无严密的逻辑关系。( 这是一种更新型的幻觉,和 DeepSeek 造谣给王一博道歉事件中的事实性幻觉有区别 )
斯坦福大学团队[1]总结了这些怪异行为的类型,包括跳过中间关键步骤,代入特殊数值来猜测一般规律,数值近似粗糙,逻辑推导没有闭合,甚至未使用真正的数学语言等。研究团队通过系统评估还发现,Grok3 mini 最终答案正确率达 71.5%,但推理过程正确率仅为 6.0% 。
上海交通大学计算机系教授、博士生导师、副系主任张伟楠( 主要研究方向为强化学习、决策大模型等 )告诉知危,“ 说 o3 是被强化学习过度优化导致幻觉增加,其实说明人类不知道自己想要什么。”
“ 发展到这一阶段其实很正常。强化学习可以优化大模型在某些任务( 例如数学和代码 )的性能。而这些能力提升后,人们又开始关注它的幻觉问题,觉得大模型吐出来的话不正常。这样的情况在其它强化学习应用场景中也经常发现,例如人们首先训练机器人要走得快,但后来又觉得机器人走得不漂亮。”
天津大学智算学部教授、华为诺亚决策推理实验室主任郝建业( 主要研究方向为深度强化学习、多智能体系统等 )也同意问题根源在于强化学习,他向知危表示:“ 强化学习的学习范式,主要的监督信号就是最终结果是否正确。而大模型本身的推理过程,尤其是数学题那种多步推理,是一个非常长的多步决策过程。但强化学习比如 GRPO( 一种强化学习算法 )只在最后一步给出奖励,就可能导致模型学到的最终结果是正确的,但中间的推理过程是错误的。模型可能会发展出一些错误但高效的策略,这就是所谓的 ‘ 幻觉 ’ 现象的来源。”
“ 整体来看,现在大家用强化学习训练大模型来实现慢思考,其实还处于一个比较初级阶段,基本上还是用比较标准的强化学习方法。特别是在线的训练方法,包括 GRPO 也只是 PPO 的一个变种,本质上和 PPO 没有区别。”
伦敦大学学院计算机系教授汪军( 主要研究方向为强化学习、多智能体等 )对此进行了深入的实验研究,他向知危表示 “ 现在主流的强化学习方法比如 GRPO 等,或者通过提示来鼓励模型在输出结果之前先思考的方法,都有很多问题,其中一个问题是模型的思考过程没有被 regularized( 正则化 )或规整、规范,这就导致它所谓的思考过程可能并不符合人的逻辑。”
“ 具体来说,我们使用 DeepSeek R1 等模型在 AIME 基准测试上进行测试,并对所有 AIME 中的数学难题的错误和正确案例都进行了分析,发现当模型尝试最大化奖励而忽略思考过程的规范性时,其推理的逻辑不一定是对的,存在大量的重复或冗余,但最后还是能给出正确答案。这类现象可以理解为走捷径。”
“ 对此我是比较失望的。所以尽管人们相继提出了 GRPO 等各种强化学习算法,但没有一个算法真正抓住了问题的关键。”
“ 人们也尝试突破 GRPO 等算法的局限性。比如我们有一个方法是这样的:假设 x 是输入,y 是输出,我们让模型具备这样的能力 —— 在已知 x 的情况下,给定之前的 y,反过来推出 x。经过这样的训练,模型就可以不断地提高它的输出能力,对强化学习有很大的提升。”
“ 目前人们并没有关注如何对思考过程做 regularized。我们会关注这个方向,是因为本质上,大多数在线强化学习训练中,thinking( 推理 )阶段是没有正确答案的。因为没有任何事实来告诉模型思考过程应该是怎样的,所以本质上它是隐性的。如果只在输出结果的时候提供一个奖励,那对于中间这个隐性的过程,如果不加 regularized,就可能是任何东西。”
“ 从另外一个维度,无论思维链是用 token 的形式( 包含在输出中 ),还是 latent 的形式( 不包含在输出中 ),只是不同的方法。latent 形式可能效率更高或更快,在有实时性要求的任务中更合适,但可解释性不强。当然也可以做成混合的方式,训练时用显式的 token 形式,但在执行时如果不需要输出这些 token,则用 latent 的形式执行就可以。还有一个可能,在大模型和小模型之间,用 latent 的方式来传递信息,也是可以实现的。”
“ 当然,将这种现象称作幻觉,不一定准确,有一定误导性。过去讨论的大语言模型的幻觉主要属于事实性错误,是由于 AI 生成的概率性而导致的必然结果。而 AI 的推理过程和人类不同,答案却是正确的,只是 GRPO 等算法的奖励设置对中间过程缺乏约束的结果。”
张伟楠教授进一步解释道,“ 这类推理模型的训练中使用的数据,可能已经包含了相当一部分大模型( 或者智能体 )通过强化学习与环境交互得出的 CoT( Chain of Thought,思维链 )数据。也就是说,交互数据本身就是凭空生成的,不是完全来自人类的数据。”
“ 这些 CoT 数据一般会经过校验,也就是通过校验器判断思考过程最终确实导致了任务的完成,然后这条思维链就会被用作训练数据。”
“ 但是这些思维链链的具体过程,在语句、语法、自然语言层面是否标准或优雅,人们其实并不关注。于是,这势必会让后训练之后的大语言模型 ‘ 说人话 ’ 的能力出现一定偏移。但它在解决专业任务的能力上,比如解题,比如智能体的规划、决策等,整体是变强了。”
“ 再深入一层,就涉及强化学习的核心组成 ‘ 奖励函数 ’ 了。其实人类目前还不知道正确、完美的奖励函数该怎么设计。更本质的原因则是上面说的,人类不知道自己真正要什么。”
郝建业教授也强调,“ 设计合理的奖励函数是强化学习方法中最关键的一点,同时也是最痛的一个点。”
奖励模型可分为结果级( ORM )和过程级( PRM ),ORM 容易让模型通过错误的推理路径得到正确答案,因此有必要引入 PRM 来监督推理过程。但 PRM 方法本身实现很困难,比如训练数据收集成本高。
“ 不只是数据成本高,中间过程的 PRM 定义本身就非常困难。因此一种解决方式是通过手动或者半自动的方法,更好地定义中间过程的奖励,用来引导模型,尽量减少中间推理过程中的幻觉问题。”
“ 另外也可以考虑借鉴过去强化学习中的一些技术,比如如何进行奖励分配——也就是说,怎么把最终的奖励合理地分配到中间的每一个步骤,从而为中间过程自动设计出更准确的奖励值。”
然而问及近两年奖励函数设计方面的发展情况,张伟楠教授向知危直言道,“ 没什么像样的发展。”
奖励函数设计难在哪里?其实是源于大模型作为智能体,要实现持续进步,甚至超越人类,需要与复杂度越来越大的环境进行交互。
张伟楠教授解释道,“ 将强化学习应用到大模型,推动了大模型和智能体之间边界逐渐模糊的趋势。比如 OpenAI 的 DeepResearch 也是一个模型,在 pretrain 阶段完全用 next token 的方式,直接输出调工具的命令( 凭空生成一个工具 token,这个工具 token 对应的是一个可被调用的 API ),根本不需要像智能体那样从 prompt 去选择调用工具。”
“ 以前让智能体模型能够和环境交互的是可执行框架,作用是把环境给的感知信号转换成大语言模型能理解的语言 token,大语言模型输出的 token 又可以转化成对环境下达任务、下达动作的控制指令。但这其实就是一层框架。现在智能体模型本身就可以去做这件事。但问题在于,你就得把这些任务相关的数据在预训练的时候全都输入大语言模型里。”
“ 可是这样的任务种类是成千上万种,不可穷尽的。不可能在一次训练中,对于每一种任务,人们都能交互出适合完成它的数据,然后再让大语言模型用 next token decision 的方法统一进行训练。”
“ 所以,这是一个永远存在的主流任务和 outlier 或者数量多、范围窄的边缘任务之间的权衡关系。比如 DeepResearch 重点挑选的是一些专业任务,比如调研、科学研究、市场调研、数学、编程等任务。但前提是,你必须在训练阶段就选好这几类任务。但如果我突然有一天想用大模型处理点外卖这种任务,它可能就做不了,因为它压根没见过点外卖的 API。”
“ 所以要提高推理模型的泛化性,还是需要更多从外部去强化交互。接下来的发展,无论是智能体还是大模型,都需要和动态环境进行交互,产生出超越人类的数据。一个是数量上超越人类沉淀下来的所有文本数据,另一个是从数据性能指标上超越人类。”
“ 如果永远只是模仿人类,比如模仿人类怎么写文字,它最多只能在融会贯通这个维度上超过人类。而确实,大语言模型在融会贯通上已经超过人类了。”
“ 如果它的发展上限被 ‘ 老师 ’( 也就是人类本身 )限制住了,那它的成长空间就很有限。比如 AlphaGo ,它必须通过与环境的交互,生成完成任务的数据,再基于这些数据调整自身参数,才能让它真正拥有比人类更强的能力。AlphaGo 能通过自我博弈提升,主要是因为环境太简单,可以用之前的某个版本作为对手。但现在的智能体需要和整个开放的互联网中进行交互,环境就是互联网,这个问题复杂得多。”
随着模型的强化,为了防止过度优化,奖励模型一般也需要跟着进步。所以这不仅要求交互环境要越来越开放和复杂,奖励模型也要越来越强大。
学界对奖励模型的研究发展缓慢。目前将奖励函数引入大模型甚至深度思考大模型只是非常初步的进展,奖励模型长期以来都是标量形式的输出,这其实极大限制了其表达能力和场景适用性。
“ 实际上,强化学习并没有真正地约束算法必须在一个标量式的奖励信号上进行最大化。强化学习真正的定义是:只要智能体能够和环境进行动态交互,并且基于这些交互经验数据来提升自己的策略性,就可以了。并没有说一定要用 MDP( Markov decision process,马尔可夫决策过程 ),一定要有 reward function,一定要用标量式的 reward 等等,只需要环境的变化反馈。所以这种反馈完全可以是非标量式的数据,比如说一个视觉信号,或者自然语言、多模态数据等。就像人类一样,人类的学习从来没有完全明确的数值反馈。”
“ 所以,未来训练一个大语言模型,最终的奖励函数设计,可能更像一个评论家,来给出相关的文字性、非结构化的反馈。那么我们需要提出一种方法,让模型能够基于这些文字型的反馈继续优化,比如教练说:‘ 你刚刚那个球打得不是特别好,以后挥拍的时候右手上肢的力量要更足一点 ’,基于这样的 language feedback 来调整策略,是完全可以做到的,而且已经有一些工作在做了。”
张伟楠教授补充道,“ 从商业竞争角度来说,现在大语言模型如果基于人类的真实数据做 next token prediction 训练,其实互相拉不开差距,只能比谁的模型更大或者在执行上更细致等。这源于数据层面的差距非常有限,因为大家使用的人类数据基本一样。但是如果能够自我生成全新的数据,是可以持续推动模型进步的。”
另一方面,这也反映出,目前业内测试大模型推理能力的基准,其实存在很大的局限。
“ 现在的基准没有办法真正评估模型的能力。说白了,人们还是倾向在一些基于规则、基于固定数据的前提下,去评测一个非常灵活的大语言模型。这就像我们想用一张试卷去评判一个人的能力,这永远只能是片面的评判。真正判断一个人靠不靠谱、各方面能力怎么样,其实是需要通过合作,通过持续的、多维度的交流来评估。”
从对奖励函数的探讨中可以发现,大模型的思维链在强化学习的框架下,更多被看作一种环境探索路径,这提醒我们需要重新思考推理模型的本质。
实际上,从实际效用层面,大模型的推理能力就一直受到不少质疑。
不少学者都曾表示,AI 看起来像是在推理,但其实是依靠记忆力在 “ 套模板 ”。最重要的一个依据,是它们的泛化能力非常脆弱。斯坦福大学团队[2]发现只是变换原题目的变量名、变量取值范围,许多推理模型的成绩就大幅下降。
Anthropic 团队还发现思维链可能不是给模型提供上下文,也不一定和最终答案完全相关 [3]。比如,在提示中加入关于最终答案( 可能是正确的,也可能是错误的 )的线索。结果模型接受了这样的 “ 作弊小纸条 ”,并给出了正确( 或错误 )的答案,却在大多数情况下,其推理思维链中丝毫不提使用了这个线索。
这些种种怪象更加激发了人们探索大模型推理本质的愿望。
近期,清华大学团队[4]提出了这样的发现:在足够多的采样次数下,深度思考模型和基础模型的表现没有区别。RLVR( 可验证奖励的强化学习 )并没有给模型引入新知识,只是相比基础模型,深度思考模型通过更少的采样获取正确的答案。但增加了采样效率的同时,模型的多样性探索能力也相应下降。这其实也契合了深度思考模型的用途,即直接解答专业问题,而不是探索型研究。
汪军教授表示,“ 本质上,推理可能只是提高了模型单次采样的计算量。有点类似于一个 Best of N 的过程,模型内部采样了很多次,反复尝试,最后就提高了解题的概率。”
人们甚至能用更精巧的方式,从内部机制来激发大模型的推理能力,而不需要外部奖励。
UC Berkeley 团队[5]指出通过鼓励模型生成自认为 “ 更有把握 ” 的回答,就能激发模型的推理能力。
通俗来说,在训练过程中,进行多次采样,每次采样生成一串 token,对整串 token 计算每个 token 预测下一个 token 时的自我确定度( 下一个 token 的所有候选词的概率分布越不均匀,越集中在少量词,自我确定度越大 )。
最后将每个 token 的自我确定度相加,就是这串 token 的自我确定度,选择自我确定度最大的采样输出,即可激发或强化模型的推理能力。
他们的方法借鉴了熵的思想。熵是衡量一个系统状态的无序或均匀程度的变量,自我确定度越大,熵越小,系统状态越有序,相当于说,这个方法就是在 token 世界里寻找坚实的高速公路来达到目的地,而不是在混沌的大海里盲目探索。
张伟楠教授解释道,“ 这其实可以从强化学习的角度来理解,对熵的控制是很多机器学习训练的本质现象。在训练过程中,如果保持较高的熵,可以有更多探索性。如果保持较低的熵,可以有更多专业性。”
“ 强化学习本身其实是建立在一个有探索能力的智能体基础上,然后希望它能在某个任务上专业化。这个任务说到底,其实就是一套奖励函数。如果在每个状态上、每个位置上 ‘ 好 ’ 或 ‘ 坏 ’ 的标准被定义清楚了,就可以通过强化学习把这个智能体训练得更擅长这个任务。但问题在于,一旦它专注于某一个任务,就会忘却其它任务的能力,需要从头训练。”
推理模型还具有更令人困惑的行为,华盛顿大学团队[6]指出了这样的怪异事实,即便是使用和正确答案相关性极低甚至负相关的异常奖励信号,一些模型比如 Qwen2.5-Math 也能获得显著的数学推理能力的提升。
研究者通过实验观察,提出了这样的假设,强化学习训练过程中,如果缺乏有效的奖励信号,模型更倾向于在训练中进行高频率的探索行为,并激发和利用预训练阶段习得的潜在推理模式。
比如,Qwen2.5-Math 通过预训练掌握了 Python 代码推理的能力,而仅仅是多使用代码推理本身就足以提升准确率,因此异常奖励信号间接地提升了模型的性能。
综上来看,训练大模型推理能力的结果,更多是形成了一种增大计算量的或者激活了预训练模型中已有的 token 探索的模式,而不是知识层面的能力。
尽管面临很多质疑,但大模型推理的未来潜力依然备受期待。
大语言模型或智能体要持续进步,就需要与非常开放和复杂的外部空间进行交互、探索和学习。但就目前基于 token 序列生成的方式,效率是比较受限的。
张伟楠教授表示,“ 现在的智能体训练确实比较费 token,也比较慢,但大家还是乐意等,原因在于它代表了一类未来技术,在未来每个人都能拥有专属自己的 AI 助手。”
“ 大家首先关注的重点是,它具备多大的能力或多高的天花板,其次才是 token 的时延和算力消耗。往前推三年,当时推理 token 的价格偏高,现在多强竞争的局面下,真正受益的是用户,大家能以更便宜的价格去使用这些模型。”
即便目前在逻辑推理方面还有很大局限性,但张伟楠教授也认为,大语言模型是可以学会真正的逻辑推理的。
“ 我对此是持乐观态度的。第一点,人脑在做逻辑推理的时候其实也存在一定的随机性。只是有些人,比如专业老师、成绩好的学生等,会强迫自己在推理过程中严格遵守逻辑规则。但从本质上,人脑也是一个神经网络,它的逻辑推理能力,是通过将自身的神经活动被嵌入到特定的逻辑规则中来实现的。”
“ 其实,现在的智能体之所以在逻辑推理上表现得比较擅长,甚至未来有可能超越逻辑学家,原因在于它已经把 token 符号本身的前后关系运算练得非常专业。我们仍然允许它保留一定的探索性和随机性,是因为,如果它不做这些探索,就很难实现对人类的超越。”
原则上,我们需要更多关注推理模型的解决实际问题的能力,而不是与人类像不像。
逻辑类问题中存在大量离散程序搜索问题[7],比如给定一个无向图,判断是否可以用 3 种颜色给所有顶点着色,使得每条边的两个端点颜色不同。通常这类问题的严格求解极其困难,属于 NP 问题。进一步看,现在很多 NP 问题的求解,本质上仍然是在一个非常大的空间中进行树搜索的过程。
“ 比如推理模型做一道逻辑题、编程题、数学题,甚至是规划一个公司的运营方案,其实本质上都是在一个大的状态空间中逐步进行搜索的。就像一棵树,从根节点出发,不断地探索、分支,最终找到某一个叶子节点,而这个叶子节点就是一个可行的解。”
“ 在这个过程中,需要有一套基于符号、基于逻辑的校验器,能够判断某个解释是不是正确的,从而让大语言模型学会在全局空间中搜索出有效的解。”
NP 问题的定义是:验证一个解是否是这个问题的正确答案,如果验证过程是多项式时间内完成的,那这个问题就被归类为 NP 问题。所以,验证本质上是通过一些比较简单但精确的符号方法,在这棵巨大的树的每一个叶子节点上,去做出直接的验证。
但关键在于,怎么去搜索那些符合要求的叶子节点?
NP 问题的搜索方法理论上都是指数时间的( 穷举法 ),而要在实际中应用,就必须寻找多项式时间的近似方法,手动找到一个具体的显式的多项式方法非常困难。
而从大语言模型的角度看,其实它构建出了从树的根节点到叶子节点的概率分布路径,整个搜索的过程,是在搜索空间中沿着更高概率的路径进行采样,从而能以多项式时间在某些 NP 问题中找到叶子节点,即近似解或可验证的解。
“ 要对这种分布进行建模,最适合的就是神经网络,神经网络实际上变成了一个求解器。”
不仅是推理模型的本质问题、实际效用方面,最后再返回到强化学习框架内探讨 o3 的推理幻觉,张伟楠教授的态度依然是积极的,“ 奖励函数设计的困境只是暂时的,在未来肯定会得到改善,并且奖励函数会越来越全面有效。”
郝建业教授表示,“ 未来的关键在于,如何将过去十年深度强化学习时代的技术,融合进大模型时代,来更好地解决大模型强化学习的高效训练问题。我相信因为大家对强化学习已有很好的前期积累,所以肯定会朝这个方向继续探索。”
撰文:流大古
编辑:大饼
相关推荐
我们找到3位大学教授,聊了聊越来越严重的AI幻觉
人类幻觉比AI要严重多了
AI赛道如何突围?我们请来阿里、投资人、创业公司CEO一起聊了聊
人工智能的幻觉越来越严重,而且会持续下去
AI的可用性到什么程度了?我们和几位一线内容从业者聊了聊
工业品销售的发展、变革、关键点,我们和 30 岁、营收过百亿的「鑫方盛」聊了聊
咖啡连锁如何突围?我们和印尼 Kopi Kenangan 的创始人聊了聊
新一代iPhone很枯燥?我们和几位骨灰级果粉聊了聊
我们请来了钉钉、阿里云、宋小菜还有顶级投资机构,聊了聊to B企业的生存边界
AI集体出现幻觉
网址: 我们找到3位大学教授,聊了聊越来越严重的AI幻觉 http://m.xishuta.com/newsview138813.html