本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《新版 GPT-5 刚刚发布,最卷 AI 连肝代码 7 小时,编程工具大洗牌开始了》
就在Anthropic Claude陷入降智风波时,OpenAI刚刚推出了GPT-5-Codex——这是基于GPT-5优化后的Codex专用版本,专门针对「自主编程」进行了训练。
这次升级确实有些分量。
聚焦于真实的软件工程场景的GPT-5-Codex,不仅能处理日常的编程交互,还能独立完成复杂耗时的工程项目。
它能像真正的程序员一样,连续工作超过7个小时,在复杂项目上不断迭代、修bug、跑测试,最后交付一个完整可用的解决方案。
从四月份推出CLI版本,到五月份上线网页版,再到现在的全面升级,Codex就是要把编程这件事彻底「自动化」。
现在无论你在终端、IDE、网页还是手机上开发,Codex都能提供一致的编程辅助体验,而且已经整合进ChatGPT账号体系,本地和云端可以无缝切换。
根据介绍,GPT-5-Codex最有意思的特性是「动态思考」能力。它能够根据任务复杂度灵活调整处理时间。
OpenAI内部员工使用数据显示,按模型生成的token数排序,对于最底部10%的简单请求,GPT-5-Codex比GPT-5少用了93.7%的计算资源。
相反,对于最顶部10%的复杂请求,它会花费大约两倍的时间进行推理、代码编辑、测试和迭代。这意味着日常聊天和小任务响应会更快,而复杂的大型重构则会投入更多时间深度处理。
用人话说就是:日常小问题不磨蹭,大项目该花时间就花时间。终于有个编程模型懂得「好钢用在刀刃上」了。
基准测试方面,在GPT-5发布时,OpenAI只在477个SWE-bench Verified任务上报告结果,在被Anthropic指出这一问题后,今天OpenAI算是长记性了。
他们表示这些问题已经修复,现在可以在全部500个任务上报告结果。结果如下:
代码重构评测更是涵盖了Python、Go甚至OCaml等语言,比如一个来自Gitea的pull request案例,修改了232个文件、3541行代码,将ctx变量贯穿到应用逻辑中。
代码审查功能也很实用,它会在代码库中浏览分析,运行测试验证正确性,给出的审查意见准确性不错。在OpenAI内部,Codex现在会审查大部分PR,每天能发现数百个问题,很多时候比人工审查更早发现潜在bug。
前端开发支持同样到位,GPT-5-Codex不仅能创建桌面应用,移动端开发能力也有明显提升。它还能读取截图和设计稿,检查开发进度,把工作成果可视化展示,这对前端开发确实很有帮助。
工具层面的更新也相当丰富。全新改造的Codex CLI现在围绕自主编程流程重构,支持直接附加和分享图片,包括截图、线框图和架构图,用于建立对设计决策的共同理解。
处理复杂任务时,Codex会通过待办清单跟踪进度,内置了网页搜索、MCP等工具连接外部系统。
审批模式简化为三种:只读模式需要显式批准,自动模式对工作区有完整访问权限但工作区外需要批准,完全访问模式可以在任意位置读取文件并运行带网络访问的命令。
全新的IDE插件支持VS Code、Cursor等编辑器,让用户能无缝预览本地修改并与Codex协作编辑代码。插件还支持在云端与本地环境间流畅切换,可以直接在编辑器中创建云端任务、跟踪进行中的工作,以及审查已完成的任务。
云端基础设施也有明显改进,通过容器缓存将新任务和后续任务的中位完成时间缩短了90%。Codex能自动设置运行环境,扫描常见初始化脚本并执行,在配置网络访问权限时还能运行pip install等命令按需安装依赖。
安全方面,OpenAI采用了沙箱运行环境,默认禁用网络访问,确保不会在用户电脑上执行有害操作,同时降低提示注入风险。
开发者可以根据风险承受度自定义安全设置,在云端可以限制网络访问只允许可信域名,在CLI和IDE插件中可以批准命令、允许全权限运行或使用网页搜索、连接MCP服务器。
与GPT-5管理方式一致,GPT-5-Codex在生物与化学领域被归类为高能力模型,已采取相应安全措施。
价格上,Codex已经集成到ChatGPT的各个付费套餐中,不同套餐提供不同的使用额度。
Plus、Edu和Business适合每周几次专注的编程会话;
Pro则能支持跨多个项目的一整周工作量。
Business套餐可以购买额外额度,帮助开发者突破包含的上限;Enterprise套餐则提供共享额度池,只需为团队实际使用部分付费。
对于使用API key的开发者,OpenAI计划很快在API中开放GPT-5-Codex。
值得一提的是,目前GPT-5-Codex的系统提示词已经被网友扒出,只有原始GPT-5的三分之一,感兴趣的开发者可以研究一下。
系统提示词地址:
https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex_Sep-15-2025.md
知名博主Dan Shipper在体验完GPT-5-Codex之后,给出的评价是:
我们在@every上测试了几天,结果相当震撼:
-它会根据任务动态选择「思考」时间——难题上能长时间工作,简单问题则能即时给出答案。
-在我们的生产代码库测试中,它可以自主运行长达35分钟——相比之下,GPT-5往往过于谨慎,这是一次明显的升级。
-它支持本地与网页开发环境的无缝切换。你可以在VS Code中启动一个任务,然后在去购物时把它交给Codex Web继续完成。
-它配备了代码审查智能体,会真正运行你的代码,因此能发现更多bug。
以下是我们经过大量内部测试后的整体感受:
-这是一次非常出色的升级,让Codex CLI成为了Claude Code的有力替代品。
-不过,它需要合理的提示才能表现出最佳效果。比如@kieranklaassen最多只能让它运行5分钟,而@DannyAziz97找到了诀窍。
-有时候它会「偷懒」——在某些任务上可能思考不足,或者如果认为任务过大就会直接拒绝。
-我整个周末都在用Codex CLI为@CoraComputer提交一个新的PR,体验下来发现它非常好用、易于引导——这是一个很棒的模型。
OpenAI Codex产品负责人Alexander Embiricos表示,性能的大幅提升主要归功于GPT-5-Codex动态的「思考能力」。
Embiricos解释说,GPT-5-Codex的工作方式类似,但它内部没有路由器,而是能实时调整在某项任务上投入的时间。
Embiricos指出,这比路由机制更具优势:后者在一开始就必须决定要为某个问题分配多少算力和时间,而GPT-5-Codex则可以在处理任务5分钟后决定「还需要再多花一个小时」。
最近几个月,几乎所有AI大厂的重磅更新都指向同一个方向——编程能力。相比之下,如果你仔细观察就会发现,针对普通用户的「优化」其实是在不断减少。
表面上看,这可能是因为面向普通消费者的AI产品已经陷入瓶颈期。聊天、写文案、做翻译,这些功能已经比较成熟,很难再有突破性进展。
但更深层的原因,还是绕不开商业逻辑。
开发先进的AI模型本就需要天文数字的巨额投入,这些成本总要有人承担。与其指望海量低付费用户慢慢回血,不如直接锁定那些真正愿意掏钱的高价值客户。而程序员是最愿意为AI工具付费、且粘性较高的群体之一。
新模型上线不久后,OpenAI CEO山姆・奥特曼兴奋地透露,GPT-5-Codex已经占据了Codex总流量的近四成,他判断在今天之内,这个比例就会反超,成为平台的主要来源。
从这个角度来说,放弃技术平权的营销叙事,AI的未来可能比我们想象的更加「精英化」。这不一定是坏事,但至少我们应该对此有清醒的认识。
附上OpenAI博客地址:
https://openai.com/index/introducing-upgrades-to-codex/
封面来自:ZDNET
欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
相关推荐
AI大神卡帕西的编程“魔法”:自曝四层工具链,Cursor主力、GPT-5兜底
用了半天GPT-5,写作编程让我又爱又恨,200刀的最强Pro 版本到底值不值
“全球最强编程模型”来了!Anthropic发布Claude 4,连干七小时性能稳定
GPT-5发布,普通人必看的8件事
地表最强编程AI 诞生,Claude4连续自动编程7小时,实测细节惊艳程序员
刚刚,GPT-5正式发布,奥特曼:这是全球最好的模型
爆杀所有前任!GPT-5上手体验:编程让人失望,幻觉控制惊喜
AI编程工具,如何突破瓶颈
凌晨突袭!新版DeepSeek代码能力封神,Claude 3.7王座不保?
传Anthropic年化营收达40亿美元,编程工具核心负责人被Cursor挖走
网址: 新版GPT-5刚刚发布,最卷AI 连肝代码7小时,编程工具大洗牌开始了 http://m.xishuta.com/newsview141900.html