首页 > 科技快讯 > 刚刚，OpenAI 发布ChatGPT 版Manus，奥特曼：感受AGI 时刻

刚刚，OpenAI 发布ChatGPT 版Manus，奥特曼：感受AGI 时刻

晰数塔互联网快讯
2025-07-18 05:33

本文来自微信公众号：APPSO （ID：appsolution），作者：发现明日产品的，原文标题：《刚刚，OpenAI 发布 ChatGPT 版 Manus！奥特曼：感受 AGI 时刻》

过去大半年，Agent（智能体）是AI行业最常被提及的概念之一。

几乎所有厂商都在讲Agent，概念不缺，demo也不少，但真正做到产品级落地，始终缺一套完整的执行系统——既能理解复杂目标，又能调用多种工具串联任务流程，还要随时支持任务中断、修改与恢复，真正贴合任务流。

就在刚刚，OpenAI正式发布ChatGPT Agent功能。

通过整合Operator+Deep Research+ChatGPT本体，用户只需描述任务，ChatGPT Agent就能自主判断所需工具，自动访问网页、提取信息、运行代码、生成PPT或表格等，并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。

看到这，你或许有种似曾相识的感觉。ChatGPT这个新功能其实与3月份大火的Manus在体验层面颇为相似，而Manus也正面回应了OpenAI这位竞争对手的入场。

凌晨发布会结束后，OpenAI CEO Sam Altman在社交媒体上写道：

观看ChatGPT Agent使用计算机完成复杂任务，对我来说是一个真正的「感受AGI」时刻；看到计算机思考、计划和执行，有种与众不同的感觉。

亮点如下：

ChatGPT Agent将Operator、Deep Research与ChatGPT本体三合一，构建了一个统一智能体系统；

内置图形/文本浏览器、终端和API调用器等工具，支持手机端使用，任务完成后可自动推送结果；

可连接Gmail、GitHub等第三方应用，深度嵌入用户真实工作流；

在多项基准测试中表现领先，综合性能位居行业前列；

Pro用户每月享有400条调用额度，其他付费用户为40条，并支持按需扩展配额；

ChatGPT Agent正式上线，能购物，能写PPT，你的浏览器要被AI接管了

今天开始，你可以在任何对话中，通过聊天界面左下角的「工具」下拉菜单，选择「Agent模式」来启用这一功能。

输入你想完成的任务，ChatGPT Agent就能浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析，PPT、电子表格等任务也都能信手拈来。

整个执行过程是可视的——操作步骤会实时显示在屏幕上，用户可以随时中断、修改指令，甚至手动接管浏览器继续操作，确保任务始终符合你的目标和需求。

在今天凌晨的演示中，OpenAI展示了ChatGPT Agent在真实场景中的应用能力。

比如，为即将出席的婚礼做准备，一直是个难题。现在只需发出请求，ChatGPT Agent迅速搭建虚拟环境，自主判断应调用浏览器、文本解析器还是终端，并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。

在这个过程中，模型可以与OpenAI研究员进行互动，并在适当节点请求确认需求，而执行这样一个任务只需十分钟左右。

更重要的是，用户还可以随时中断任务。

比如当Agent在推荐西装过程中，OpenAI研究员临时插入了「帮我找一双9.5码黑色正装鞋」的请求，模型立刻暂停当前任务，转而处理新需求。

同样地，当Agent认为有必要时，也会主动向你请求更多信息，确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿，你可以选择暂停任务、请求进度摘要，或直接终止任务并获取已有的部分结果。

「这种可打断、可多轮对话的机制，是我们这次训练模型的重点之一，」OpenAI研究员解释道。

这一能力背后，是ChatGPT Agent对三大系统的统一整合：Operator提供网页交互能力，支持自动滚动、点击、填表；Deep Research擅长信息整合与分析；ChatGPT本体则负责自然语言理解与智能推理。

ChatGPT Agent是通过强化学习在复杂的任务中训练出来的，过去三者各有短板——前者难以深入分析，后者无法操作网页，而Agent将三者优势整合为一体，并辅以浏览器、终端、API调用器等工具，形成一个完整的执行系统。

用户不仅可以在桌面端启动Agent模式，在手机端也同样适用。

任务完成后还将自动推送结果通知。在第二个演示任务中，OpenAI研究员在ChatGPT App上传了团队吉祥物Bernie Doodle的贴纸图案，Agent自动调用图像生成API设计贴纸样式，通过浏览器访问电商平台完成比价、样式选择、购物车添加，最终整理出定制500份贴纸的下单明细。

当然，为确保流程安全、灵活且清晰可控，面对涉及金额的支付环节，则只会由用户手动接管浏览器完成。

通过连接器，用户还可将Gmail、GitHub等日常应用接入ChatGPT，让模型读取邮件、日历或代码库等上下文内容，并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。

一个更典型的应用场景是，OpenAI研究员能够让ChatGPT Agent汇总自己在多项基准测试中的表现，并制作成PPT。收到命令后，Agent成功调用Google Drive连接器读取数据文件，用终端编写代码绘制图表，并完成任务。

这类自动化能力，都是Agent深度嵌入工作流的体现。

不过，可以看到，ChatGPT Agent生成的PPT在设计审美方面表现比较一般，并且，虽然可以上传电子表格供ChatGPT编辑或作为模板使用，但生成的PPT暂不支持二次修改。

需要说明的是，OpenAI并不是让Agent像人一样打开PPT或Excel文件，通过点击来插入文本框和公式，而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势，避免因模拟点击操作带来的效率低下或出错，也降低了对计算资源的消耗。

The Information报道指出，如果ChatGPT要直接编辑PPT或Excel文件，就需要启动一台「虚拟机」（即通过ChatGPT运行的虚拟计算机环境），这会占用更多计算资源。

而直接生成代码则更轻量、高效。尽管潜力巨大，但就目前来看，这一功能短期内很难对微软的Office或者Google Workspace造成冲击。

对于ChatGPT Agent功能，Pro用户将在今天之内获得访问权限；Plus与Team用户将在接下来的几天内陆续开放；企业版和教育版将在未来几周内陆续上线。

Pro用户每月可使用400次，主打一个量大管饱，而其他付费用户每月可使用40次，并可通过弹性积分方案购买更多额度。

全线刷新「跑分」记录，Agent战场迎来最强对手

ChatGPT Agent能力的提升，也体现在「跑分」环节。

在评估AI解决跨学科专家级问题的基准测试Humanity’s Last Exam（HLE）中，ChatGPT Agent以41.6的pass@1得分刷新纪录。在启用并行执行策略后，该得分进一步提升至44.4。

在目前被认为最具挑战性的数学基准FrontierMath中，面对难度极高、从未公开的题目，ChatGPT Agent在具备终端代码执行能力的前提下，取得了27.4%的准确率，远高于此前模型。

在这一复杂且高经济价值的知识型工作任务的内部基准测试中，ChatGPT Agent在约一半的任务中输出质量已达到甚至超过人类水平，表现也显著优于o3和o4-mini模型。

在一个内部的投行建模任务基准中，ChatGPT Agent的表现也显著优于Deep Research和o3模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。

此外，在公开评估模型信息查找能力的BrowseComp基准上，Agent以68.9%的准确率刷新记录，较Deep Research高出17.4个百分点。在WebArena评估中，其网页任务执行能力也优于基于o3的CUA模型。

从平台视角看，Agent能力的底层接口，正是浏览器。

在Perplexity AI CEO Aravind Srinivas最近的采访中，他表示浏览器将会是AI的「杀手级应用」。在他看来，浏览器天然具备让AI真正「动起来」的全部条件。

不同于传统聊天机器人，AI Agent的理想形态不是停留在对话框中生成文本，而是具备实际行动力——从访问网页、提取信息、填写表单，到执行跨平台操作。而这一切，浏览器恰好具备所需的操作权限和上下文获取能力。

浏览器可以直接读取页面、模拟点击、自动执行任务，几乎无需额外授权。

在这个过程中，用户与AI共处于同一个交互空间：AI可以自动执行任务，用户也能随时中断或接管，避免黑盒操作带来的不确定性。这种可控性与透明度，是当前许多上下文协议仍难实现的能力。

如今，随着ChatGPT Agent能力正式上线，所有声称要做Agent的厂商，恐怕都要重新审视自己的产品路径。

当ChatGPT从语言交互工具，转向具备协作、调度与承接任务能力的执行系统，开始接入用户的真实工作流，Agent的可用性门槛，也在此刻被实质性地拉高。

欢迎加入APPSO AI社群，一起畅聊AI产品，获取#AI有用功，解锁更多AI新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

江南春：无论渠道如何变革，品牌才是穿越周期的核心

英特尔被欧盟罚款2.37亿欧元

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

刚刚，OpenAI 发布ChatGPT 版Manus，奥特曼：感受AGI 时刻

江南春：无论渠道如何变革，品牌才是穿越周期的核心

英特尔被欧盟罚款2.37亿欧元

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

报告：抖音海外版下载量突破10亿大关挑战Facebook