首页 > 科技快讯 > OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”

OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”

(来源:量子位)

采访时间不到1小时,信息密度却堪称爆炸!

OpenAI首席科学家Jakub Pachocki和首席研究官Mark Chen开启同台爆料模式:

在a16z的这场最新采访中,二人不仅深入探讨了GPT-5如何引入长远推理、如何在基准饱和后衡量进度,以及为什么强化学习不断让怀疑论者感到惊讶,还系统性阐述了OpenAI的用人标准、未来路线图以及算力分配这些重要问题。

一句话,凡是你对OpenAI感到好奇的问题,他俩几乎都谈到了~

话不多说,访谈重点这就奉上——

GPT-5:将推理与Agentic行为引入主流

采访第一趴主要关于GPT-5。

Mark Chen表示,GPT-5是OpenAI试图将推理能力带入主流的一种尝试。

在此之前,公司有GPT系列(主打即时响应)和o系列(主打推理)两类模型。从策略上讲,他们不希望用户被“我应该使用哪种模式”所困扰,所以把未来重心放在了越来越多的推理和Agents上。

他还一再强调,虽然相比o3和以前的其他模型,GPT-5在很多方面都有改进,但这款模型最主要的意义还是在于将推理模式带给更多人。

紧接着,主持人又问到了评估趋于饱和的问题,对此Jakub Pachocki也做了一番回答。

他一开口就直接承认,我们过去几年中一直使用的这些评估确实已经非常接近饱和。

具体而言,早期(从GPT-2到GPT-4)的训练依赖大规模预训练数据,并通过评估测试模型的泛化能力;但如今随着针对严肃推理的强化学习出现,可以让模型在特定领域深度训练成专家,从而在某些评估中表现突出(却不一定具备良好泛化性)。因此,当前缺乏更合适的评估体系。

他表示,未来OpenAI将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展。

OpenAI的宏大目标:实现自动化研究员

顺着发现新事物这个话题,二人又分别回答了“在GPT-5发布之前,哪种能力最让你感到惊讶?”这个问题。

Mark Chen分享道,印象最深的是模型能够推动非常困难的前沿科学研究。

他曾和一些物理学家、数学家朋友们共同体验模型,结果大家发现模型能够解答一些新的、非常复杂的问题。

而Jakub Pachocki则表示,o3的出现真正让他眼前一亮。尤其是在处理数学公式或推理时,它确实达到了一个“相当值得信赖”的水平。

至于未来,Jakub透露OpenAI的一个大目标是培养一个自动化研究员,这个研究员能自动发现新想法。

初步想法是,先自动化自家内部的研究工作,然后再考虑自动化其他科学领域的进展。

并且他提到了一个衡量这方面进展的“好方法”——观察这些模型实际上可以进行推理和取得进展的时间跨度。

接下来OpenAI会专注于延长这个时间跨度,无论是在模型的长期规划能力方面,还是在保持记忆方面。

对此Mark Chen也call back了一下评估的问题:

强化学习远未达到瓶颈,“不要将当下的状态视为终局”

接下来话题跳转到强化学习(RL)。

每当OpenAI发布模型新版本之后,很多人都会怀疑强化学习会达到瓶颈,但不知何故,RL依旧“生命力顽强”。

所以,为什么RL运作得如此出色?RL有什么让人感到惊讶的地方吗?

面对这一连串提问,Jakub Pachocki首先解释了RL能运作良好的几点原因:

Jakub Pachocki认为,过去几年是OpenAI研究中最令人兴奋的时期,因为他们发现了如此多的新方向和有希望的想法,并且这些想法似乎都在奏效。

在谈到奖励模型(Reward Model)时,他预计奖励模型的发展速度会非常快,并且未来会变得更简单,就像几年前大家讨论如何构建合适的微调数据集一样。

与此同时,他指出这一演变还远未结束,OpenAI正在逐步向更接近人类学习的方向迈进,而当前的RL仍无法完全做到这一点。

他特别强调,理解RL的关键思维模式是不要把当下的状态视为终局,要保持灵活,因为相关的工具和方法论还会持续快速迭代和演变。

氛围编码之后:氛围研究

对于当下大热的AI编程,主持人也cue到了OpenAI本月发布的GPT-5-codex,这是一个专门针对编程进行优化的模型。

Mark Chen表示,在这项工作上他们投入了大量精力来调整预设,以更好地匹配程序员对等待解决方案时间长度的预期。

并且为了测试模型能力,他们选择了去参加编程竞赛。

Jakub Pachocki认为,编程竞赛提供了一个很好的、封装的测试,可以衡量模型在受限环境和时间范围内提出新想法的能力。

不过,Jakub自述作为一位历史上极其不情愿使用任何工具(甚至只使用Vim)的“老派”程序员,使用GPT-5最新的编码工具让他觉得“这不是(以前的)方式了”。

他现在意识到,模型可以在15分钟内几乎完美地完成30个文件的重构,因此“你必须使用它”。

他形容这种新的编码方式目前仍有点处于“恐怖谷”(uncanny valley)阶段,因为它虽然解决了许多问题,但“仍然有点像……不如一个同事那么好”,并表示OpenAI的首要任务是摆脱那个恐怖谷。

而Mark Chen则将模型当前达到的水平和围棋选手李世石面对AlphaGo时的经历联系起来,他直言:

他坦言,他们确实感受到了李世石所经历的部分情绪,并思考这些模型“有什么是它们做不到的”。

Mark Chen观察到,这种进步已经改变了编码的默认方式。他引用最近与高中生的对话,指出现在的年轻人认为默认的编码方式是“凭感觉编码”(vibe coding),而自己从头开始编写所有编码机制反而成为一个奇怪的概念。

他最后总结道,氛围编码之后或许就是氛围研究(vibe researching),即凭感觉研究。

OpenAI招人:并非寻找“最出圈”的人

具体回归到人上,二人也分享了他们最看重的研究特质。

Jakub Pachocki认为,坚持不懈是关键。

研究的本质是探索未知,很多尝试都会失败,因此必须做好失败和从失败中学习的准备。同时,要有清晰的假设,并且对进展保持极度诚实,不能为了证明结果而自欺欺人。

他强调,对自己的想法保持信心很重要,但更重要的是知道什么时候它有效,什么时候无效,从而调整方向。

Mark Chen补充说,研究没有捷径,需要经验来学会如何选择合适的问题。问题太难容易受挫,太简单又缺乏满足感。研究过程常常伴随大量失败,需要学会什么时候坚持,什么时候转向。

他指出,“趣味性”来自阅读好论文、交流和经验积累。

而关于如何留住人才,Mark Chen表示,OpenAI的优势在于他们专注于基础研究,而不是简单模仿竞争对手。他们有清晰的研究目标,创新氛围鼓舞了研究员,同时公司也注重文化建设和人才培养。

Jakub则指出,他们寻找的不是最“出圈”的人,而是曾经解决过难题的人,具备扎实技术功底并愿意迎难而上的人,哪怕之前的领域不是深度学习。

在团队文化方面,Jakub强调要保护基础研究,不要被产品竞争的节奏带偏,研究员需要空间去思考未来一两年的重大问题。

总之,OpenAI的长期目标是打造“自动化研究员”,因此不同研究方向会围绕这一目标逐渐融合。按Mark Chen的话来说就是,粗线条上需要规定方向,但细节上保持开放。

如果有10%的额外资源,会投向计算

如果你有10%的额外资源,你会把它投入到计算、数据整理还是人员方面?

面对最后一个关键问题,Mark Chen明确表示,计算资源是合理答案。

Jakub补充说,必须明确优先级,否则可能在所有方向都只能做第二名。他强调计算仍是决定性因素,几年前大家认为会转向“数据受限”,但事实证明今天依旧处在强烈的计算限制下。

在算力有限的情况下,如今所有主流厂商几乎都会面临产品发布和研究哪一个优先的问题。

对此,Jakub强调OpenAI的研究路线主要基于长期信念,而非短期市场反馈。并且当谈到未来哪些先验会保持不变,他认为除了计算,还要考虑能源等物理约束。他预测机器人技术会在不久的将来成为主要焦点。

Okk,至此采访内容告一段落,你怎么看二人提到的上述观点?

访谈地址:

https://www.youtube.com/watch?v=KSgPNVmZ8jQ

相关推荐

“草莓”曝出前三小时,OpenAI又有首席研究员“出走”
OpenAI首席科学家Ilya离开OpenAI了吗?
Sora年内将向公众推出:OpenAI首席技术官最新透露这些“干货”
又一OpenAI研究员离职,OpenAI离职员工称AGI使命太难
OpenAI最新产品全曝光,秘密寻找下一个重大突破
马斯克被曝要合并特斯拉和Neuralink,终极目标是AGI?
投资人施压,董事会松口:阿尔特曼或重返OpenAI?
OpenAI首席科学家:ChatGPT可能已经有了意识
揭秘:OpenAI是如何发展出推理模型的?
马斯克遭OpenAI偷袭!被挖走三个技术大牛

网址: OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员” http://m.xishuta.com/newsview142346.html

所属分类:行业热点