首页 > 科技快讯 > Gemini2.5弯道超车背后的灵魂人物

Gemini2.5弯道超车背后的灵魂人物

从去年在大会前夜被OpenAI的4o模型“精准狙击”,到今年Gemini 2.5 Pro全面霸榜。短短一年时间,Gemini是如何完成从追赶者到领跑者的逆转?

《硅谷101》创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei,一起和两位前Google的技术专家聊聊Gemini模型登顶背后的底层逻辑。

以下是这次对话内容的精选:

一、Gemini2.5崛起背后的底层逻辑

泓君:谷歌此次发布的Gemini 2.5 Pro,在当前各项评测中的数据都是所有大模型中最好的,Kimi你可以分析一下它是如何做到的吗?

Kimi:我已经离开DeepMind快一年时间了,也不太清楚我的前同事们在这一年中又做了哪些新的创新。但大语言模型训练根本的步骤是不变的,包括以下三点:Pre-training(预训练)、SFT(Supervised Fine-tuning,监督微调)和利用RLHF(基于人类反馈的强化学习)技术做的Alignment(对齐)。

大概在去年的NeurIPS(神经信息处理系统大会)上,业内已经普遍承认,公开网络数据基本都已经抓完了,就像化石燃料已经被消耗殆尽一样。因此,在过去这一年里,更多精力其实是投入到了对齐阶段,特别是强化学习方向,尤其是在“人类反馈”和“AI反馈”上的探索。比如在数学和编程类这类目标清晰且可验证的任务上。

对于Google来说,从Gemini 1到1.5再到2,已经积累了相当坚实的基座模型训练经验。再加上Google开始更加重视强化学习的作用,不只是依赖人类反馈,而是启动了一种“让AI批判AI”的机制。就像当年AlphaGo的成功,它的核心突破点就在于下出“第37手”那样超越人类常规理解的棋步,是AI突破人类认知的体现。

所以我认为,未来的AI模型需要在强化学习中能实现“自我判断正确性”。而在Gemini 2.5的训练过程中,很可能正是引入了更多此类强化学习策略,才使它在编程、数学等高确定性任务中,展现出如此令人惊艳的表现。

泓君:对,在去年大模型的训练中出现了一个比较明显的趋势,各家都在预训练基础上加入了后训练。比如OpenAI的o1系列和DeepSeek的R1,都在推理任务上表现得很好。虽然Anthropic在很长一段时间内,并没有新推出推理模型,但Sonnet 3.5和3.7,它们在代码能力上出现了明显的质变。这也带动了Cursor、Windsurf这样一批编程类Agent的迅速崛起。这次发布会Google也特别强调了自己在代码生成上的质量提升。

我一直很好奇的一点是:为什么Anthropic生成的代码质量,明显优于其他家?代码质量的提升,主要是靠什么能力实现的?

Kimi:我还是从我刚提到的三个步骤展开。首先在预训练阶段,大家一定会面临数据配比的问题:比如要放多少代码,多少自然语言进去,其中中文和英文分别占多少等等。这件事现在并没有任何行业共识,没有人知道最优比例是什么。但我猜,对于Anthropic来说,代码的优先级是最高的。它们在预训练时可能就投入了大量高质量的代码数据,所以模型在基座层面的编程能力非常强。

接下来是对齐环节,在大公司里,我们私下会调侃它像是一个YOLO RUN(快速整合、节奏紧凑的大模型训练迭代方式)。比如今天我们三位分别在Google不同的团队,每个人在各自的方向上推进各类创新,然后我们定一个节奏,比如两周,把所有成果整合起来跑一个版本,看看最终迭代出了什么。这就意味着,模型在对齐的时候,不同团队的优先级是不同的。有的团队注重写作能力,有的注重数学能力。

我猜Anthropic的内部认为编程是第一优先级,也可能他们认为编程是解决推理模型的钥匙。所以无论是在预训练阶段,还是在后续的监督微调、强化学习环节,它们都倾向于引入更多的编程训练进去。这样会让它在Coding能力上表现好,但是这样做也会导致它在别的能力上稍有欠缺。

我举个我自己最近经历的有趣的例子。作为初创公司的创始人,我现在每天不只是写代码,也要做市场、销售、写文案的工作。我经常会用同一段提示词,分别输入给Gemini、ChatGPT、Claude、Perplexity,比如让它们都输出一段市场营销的文案。结果我对比发现,OpenAI写出来的内容最有调性,让我很愿意直接用。Claude写的文案就会显得特别枯燥,像是在和一个无聊的码农聊天,这是策略问题。

大语言模型的训练本来就是人们常说的:垃圾进,垃圾出。如果你喂进去大量高质量代码,自然产出的代码质量也会高,这还是数据配比的问题,我认为Anthropic在代码问题上思考的更多。

泓君:主要也是看团队把哪一块放成是重点,你觉得DeepMind之前的重点在哪里呢?

Kimi:我觉得其实DeepMind一直追求的是一种综合能力,包括在编程、数学、推理、写作等多个维度上都具备较强的表现。所以我们会设定一套通用的评估指标体系,用于覆盖多个不同的评估维度。

不过我也知道,我们过去确实有些能力是相对薄弱的,比如写代码。也正因为如此,整个团队在编程上投入了更多的精力和资源。这一轮我认为在代码能力上算是追上了Anthropic。

泓君:推理能力呢?也是取决于重视程度,还是需要在后训练阶段加入一些特别的技巧?

Kimi:我在Google的时候,Google还没有开始它的推理模型,但我离开Google的时候,是OpenAI的o1刚开始出来的时候,当时Google推理模型还没有排在优先级很高的位置上,Google当时还是在追赶OpenAI的写作能力和问题解决能力。

OpenAI刚出的时候,大家都很喜欢它输出的内容,所以Google最早做的是要追上OpenAI在人类偏好这方面的输出质量。但人类偏好的数据是非常有限的。所以后来大家开始思考:还有什么能力是更可量化、也更容易做出突破的?答案就是编程。

Anthropic在这方面做出了突破之后,Google接着也意识到,不能只输出人类偏好的内容,我还要写出非常牛的代码。而当大家都写出非常牛的代码之后,OpenAI又把重点转向了推理。它认为不能只是想写出人喜欢的内容,不能只是写出好的代码,还要做出逻辑严密的模型,能让用户真正看懂问题是怎么被解决的。

当这件事做成之后,目前我觉得Google已经开始凭借推理能力,在引领这股潮流了,让别人成为了追赶者。

泓君:在数学能力方面,我注意到Grok的表现挺不错的,XAI的模型。它们的创始团队里有很多非常顶尖的数学家,而且一直在尝试解决一些全球最难的数学问题。

Kimi:我的数学能力没有办法达到这个顶尖数学家的水平,这是一个“先有鸡还是先有蛋”的问题,你需要人有这个能力,才能评价模型好不好。我作为软件工程师,只有能力评价代码能力。但这个能力也分两个方面:模型是擅长写出商业可用的代码,还是只是擅长写代码这件事本身。

我记得Anthropic联合创始人Dario曾经说过一句很有意思的话:“我不希望我的编程模型只是能解决LeetCode题目。”因为LeetCode的题目本身不具备直接的商业价值。他希望编程模型生成的高质量代码,能直接进入像Shaun或者我们这样的初创公司的生产流程。这也是Anthropic非常专注的方向。

再说回数学问题本身。我觉得也分成两方面:一方面,有一部分人确实需要解决高难度的奥数题,这是模型能秀肌肉的地方。但另一方面,如何把这些数学问题接入不同的创业公司,从而创造商业价值。这可能是很多商业公司需要思考的问题。

二、三位灵魂人物撑起

Gemini泓君:你觉得谁是DeepMind的灵魂人物?谷歌模型的价值观会更偏向谁?

Kimi:“谷歌是谁”这个问题挺有意思的。我的理解是,在Gemini之前,Google的模型基本是由Jeff Dean和Oriol Vinyals共同主导的,他们也是Google的灵魂人物。

Jeff Dean可以说是计算机科学界的“活化石”。我们经常开玩笑说,他如果要写简历,可能直接写“没做过什么”比写“做过什么”还要短很多。因为Jeff Dean实在做了太多事,所以只需要写他“没做过什么”,这样可以在一页上写完他所有的人生成就。

Jeff Dean非常擅长对集群大量地调度,就是预训练。Oriol则是AlphaGo、AlphaStar、AlphaZero、MuZero这些项目的灵魂人物他作为DeepMind的代表,在强化学习方面的研究更深入。

所以基于Google擅长的预训练,加上DeepMind擅长的强化学习与对齐,使得Google能快速地追赶上竞争对手的步伐。

后来,随着Google收购Character.AI,也重新赢回了Noam Shazee。他可能是我最敬重的一位人物,因为他是长期深耕在自然语言处理领域的,从他写的《Attention Is All You Need》,到后来的提出的Grouped Query Attention。

这三位巨头形成三足鼎立的格局,把预训练、强化学习、语言能力整合成一个有机的、迭代的整体流程,使模型能力不断得到提升,让Google也变得更好。我对这三位也都非常崇拜,我觉得Google这一波能快速赶上竞争对手,也是依靠这三位的能力,包括Jeff Dean代表预训练与基础设施的能力,Oriol代表对齐与强化学习的能力,Noam代表自然语言处理的能力。

Kimi:我觉得在Google Brain和DeepMind还没有合并之前,两边的思路是完全不同的。DeepMind强化学习的能力非常强,这也是Google收购它的原因。而Google瞬间调度大量资源来规模化训练的能力是非常强的,包括预训练与监督微调能力也很厉害。

最终我觉得这是一次强强联手的过程,Google和DeepMind把彼此最擅长的领域整合了起来。

我觉得Demis在团队里扮演的角色更多是管理者和领导者。比如,我以前做IC(Individual Contributor,个人贡献者)的时候,每天的工作只需要把代码写好就可以了。但当我真的去运营一家公司的时候就会意识到:真正难的不是完成任务,而是要怎样激励一群极其聪明的人,朝着同一个方向努力。

这其实是非常有挑战性的。因为越聪明的人,往往越有自己非常强的想法,他们是不愿意听从他人的指令的。而我觉得Demis在这方面做得非常好,他能把两个刚刚整合的公司团结成一个整体。并且能让所有人都发挥出最擅长的能力,一起朝着实现AGI(通用人工智能)的目标共同努力。

泓君:Jeff Dean和Demis之间的关系是怎么样的?

Kimi:Jeff Dean现在是首席科学家,Demis是Google DeepMind的CEO。我不确定现在如何,我记得我走的时候Demis和Jeff Dean都直接向Sundar Pichai汇报。

泓君:我看Sergey Brin在2023年的时候也回来了,不过最近才开始高调亮相。你觉得作为Google的创始人之一,他的回归会带来什么变化吗?

Kimi:我觉得Sergey Brin带给Google的,更多是一种“Founder Mode”,也就是创始人的工作状态。他让大家明白要以什么样的投入和方式,去完成这项工作。

如果创始人都亲自回来做这件事了,而且一周在办公室待60个小时,那你作为Google的一名员工,难道好意思只干40小时就回家吗?而且据我所知有些团队是真的一周工作60个小时的。比如我有朋友在图像生成团队,他们提到过,Sergey Brin有一次突然说:“Meta又发新模型了,我们的模型什么时候能出来?”大家一听,心想:“得了吧,周末加班吧。”所以我觉得他的回归更多的是带来“Founder Mode”,能非常鼓舞大家的士气。

泓君:Shaun你怎么看Gemini 2.5 Pro?

Shaun:我觉得Kimi把该讲的、不该讲的,都已经讲得非常好了,我就从一个相对“外部”的视角补充一些,毕竟我也在Google工作过。

大家都知道Google的人才密度非常高,但大部分人其实都处在一个比较“躺平”的状态。因为广告太赚钱了,很多团队并不需要太拼命。但这波AI浪潮真的起来之后,特别是去年OpenAI抢了Google不少风头,再加上Sergey Brin回归带来的“Founder Mode”,整个Gemini团队的士气都非常高涨。大家其实都为了拼一口气:如果AGI真的有人能做出来,那是不是就应该是Google。

因为Google有全球最强的计算机,有最优秀的人才,还有接近无限的资源,现在连创始人都亲自冲回来了。站在外部来看,这一波Gemini的崛起其实就花了一年时间。从去年的I/O被OpenAI抢了风头,到今年的Gemini 2.5直接霸榜,所有都是第一名,连OpenAI可能今年也没办法再抢风头了。

三、Google API价格优势揭秘

泓君:大家现在都能看到Gemini的模型做得很好,但很久之前,我记得在OpenAI和Anthropic的API价格还很高的时候,Gemini就把token价格就降到了大概只有OpenAI的五分之一、甚至十分之一。不过后续是否它也反向促使OpenAI和Anthropic跟着降价,我没有特别去跟进现在最新的数据。

但整体来看,在开发者社区里面,大家都知道Gemini的API接入成本和token使用成本是非常低的。我也很好奇,Google是如何把这个价格降下来的?

Shaun:我认为主要有三方面的原因。

第一,Google大概从十年前就开始大量投入TPU了。当时它们就很清楚,如果整个Google Cloud发展起来后,就没办法不停地向NVIDIA或AMD采购GPU。所以Google从十年前就开始慢慢地深耕TPU生态,而且TPU的迭代速度在近几年也明显变快了。因为现在需求量非常大,如果拥有自己的TPU,就可以避开所谓的“NVIDIA税”,也不用等NVIDIA新的GPU出来之后和市场抢货。

第二是大家都知道Google Infra(基础设施)的能力非常强,所以相当于拥有几乎无限的资源。而且Google动态调度资源的能力也是远强于OpenAI和Anthropic的,因为这两家目前还没有自己的数据中心。Grok现在很强,做出了全球最大GPU集群。但行业内大多数AI公司还是没有调动如此大的集群的能力的,还是需要依赖Amazon、Microsoft这些第三方云服务来做这些事情。

第三,因为Google能够自行定制硬件,又能调用巨大的集群资源,在优化模型时就相当于软硬件一体化了,因此在硬件上发挥出的能力也会更强。并且Google还有自己整个开发者生态。

Kimi:我非常同意Shaun说的,Google内部的Infra能力确实非常强。很早之前,SemiAnalysis出过一篇很有意思的报告,对不同的GPU云服务进行了打分和排名。当时它们把CoreWeave排在了第一,我知道OpenAI用的就是CoreWeave来做整个GPU调度的。当时我还跟我的联合创始人开玩笑说,其实在CoreWeave之上还有一个,最牛的应该是Google自己内部的系统,它的Infra能力真的非常强。

关于API的价格,虽然我们现在都觉得API价格已经很便宜了,但其实我们都并不知道它的成本价是多少。唯一一个我们能看到的线索,是之前DeepSeek发布的一篇论文,里面提到:DeepSeek有80%的溢价空间,说明它的成本价格只有收取费用的20%左右。

对比DeepSeek用的GPU的体量,我们可以反推OpenAI的利润一定是非常高的。当然,我不是说Google的API一定是成本价,但它确实有足够的资本和能力去这么做。

相关推荐

Gemini2.5弯道超车背后的灵魂人物
量子计算机目前无法大规模商用,无法“弯道超车”
中国汽车芯片开始“弯道超车”?
想弯道超车“超重-星舰”?对不起,还真学不来
154 万 AI 开发者用数据告诉你,中国 AI 如何才能弯道超车?
智能汽车时代,国产汽车弯道超车
下一个十年,看中国半导体材料行业弯道超车
7nm光刻机没有也无妨,中国最擅长的就是弯道超车
几乎“全军覆没”?马斯克宣布新突破,外媒:6G弯道超车失败了
小米:一边弯道超车,一边队伍建设

网址: Gemini2.5弯道超车背后的灵魂人物 http://m.xishuta.com/newsview136950.html

所属分类:行业热点