今年上半年的热门话题:AI Agent很强。同时,另一个热门话题:Agent到底强在哪儿?
能陪聊、能写论文、能画画?这些能力当然令人惊艳,但放在现实世界里,成年人的核心能力是什么?不是表达,而是解决问题。对AI来说,同样如此。
伴随着Manus的现象级爆红,主打能干活的Agent也在短短数月内走入大众视野。ChatGPT Agent发布了,AGI在巨头高管们的口口相传中快实现了,被寄予厚望的Agent也号称快成为你的AI同事了。
喂,醒醒,你已经是一个成熟的Agent,得学会自己解决问题了。
Chatbot下岗,Agent上位
Agent到底该怎么翻译,都曾争论不休。有人坚持叫智能体,有人认为应当叫能动者,也有人希望保留“代理”这个喊法,讨论的热烈程度也恰恰说明了Agent在当时的陌生与不确定性。
“Agent”一词源自拉丁语“Agere”,意思是“行动”“做事”。
在使用链路上,Chatbot的链路是线性对话——用户反复提出请求、AI提供回应,每一步都要人为干预。而Agent的链路是任务链:用户输入一个目标,系统自动拆解为子任务,自主调用工具完成多步操作。过程中,除非必要,可能无需用户再次介入。
我们可以把大模型类比为一台超强咖啡机,它拥有压粉、萃取、控温等所有功能模块。而Agent,则是一个训练有素的咖啡师,它知道顾客想要什么,能协调时间,接待、出品、收银、关店一气呵成。
是的,这年头,不止人卷,AI也卷执行力。
今年以来,已经有很多Agent工具冒头,但实际作业环境却复杂得多。比如,几乎所有办公软件、内容平台、业务系统都有网页版,Agent很难事先知道你要用哪一个服务;API又各有各的封闭权限与格式。
浏览器一度是解决方案。年初时,OpenAI发布的Operator,尚且还聚焦在浏览器环境中的自动操作,不久前更新的ChatGPT Agent则在此基础上进一步整合了Operator等多种能力,并内嵌任务规划与工具调用的决策逻辑,成为一种更加完整且智能的Agent形态。
只是,这样的做法早在今年三月,就由Manus的出现来展示。通过显示思考过程的对话框、酷炫的任务执行可视化面板、用户能够直观地看见AI每一步的执行过程,这种真实可感的产品体验极大地提升了用户对Agent的信任与使用意愿,也为后来的“一码难求”埋下了伏笔。
注意,Manus号称自己是通用型agent,ChatGPT的也是——或许你也会好奇,为什么这轮Agent热会是通用型Agent率先跑出来?
在商业视角下,这种策略比较好理解,相比深耕垂类场景,通用型Agent瞄准的方向主打一个大而全:图像生成、PPT制作……也代表着更容易快速落地、做出技术展示,从而尽快抢占注意力与融资红利。
不过,现实也摆在眼前,市面上多数初创公司的Agent产品本质上只是模型的套壳应用,缺乏真正的产品壁垒。基于此,能否在功能细节上“雕花”,就变得尤为关键。
比如一个看似微不足道的设计细节——Manus在执行任务时,通常会给出一个预估时长。
对于时间观念强的用户来说,这是一个非常体贴的设计。亦或者同样都是通用型Agent,Genspark也有一个别出心裁的功能:让AI替你打电话,无论是分手、辞职,AI上阵,电话那头的真人接招。
但有一说一,现实往往是残酷的,就像几年前大家一窝蜂地追逐“元宇宙”一样,Agent足够宏大、足够模糊,也足够让人浮想联翩,仿佛承载着下一轮技术浪潮的希望。问题是,如果想象力无法真正落地为产品力,所谓的Agent便有可能沦为一场集体自嗨。
“瑞士军刀”不好用,用户需要一把好菜刀
避免纯粹自嗨的方式有没有?是有的。
相比于大而全的“通用”型Agent,垂类Agent有着天然优势——更聚焦、更扎实、场景更加明确,也更接地气。
这样的苗头也早已有之:自打Manus爆红之后,AI这个略显笼统的意象仿佛一夜之间被更具象化的Agent所取代,从客服到销售,从医学到投研,从法律助手到内容运营,每个赛道都有人在讲:我们也能做一个Agent。
本质上,这就是在说每个行业要有自己的垂类agent。
面向不同行业语境的定位差异也体现在Agent打招呼的Solgan上,比如,通用型Agent更强调“我能为你做什么”,相比之下,Lovart则直接表示“我们今天在创造什么”,这是一个明确面向设计师的产品态度和场景锚点。
我喜欢用“瑞士军刀”来形容当前阶段的Agent——很遗憾,用这个词并没有表扬的意思。
一把瑞士军刀功能齐全,能剪、能锯、能开瓶,听起来强大,但真要剪东西、拧螺丝、开啤酒,还是得找那些专职工具。这也是为什么瑞士军刀平常都是被放在抽屉深处,只在偶尔才翻出来——好像什么都能干,却没有一样最好用。
今天的通用Agent,大多也处在这个阶段:能做的事不少,但每一项都是堪堪够用。每个Agent项目都想做瑞士军刀,但市场需要的往往是一把好用的菜刀。
以“AI”为中心
既然如此,思维范式也是时候要更新了。
投资人Greg Isenberg最近提出了一个观察,传统的UX是以界面为中心的。你点一个按钮,产品做出反应,任务完成。每一次使用,都是从零开始。
设计师需要提前规划好每一条路径,写死所有流程。用户之所以需要填写表单、选择下拉菜单,是因为产品对你一无所知。但伴随着AI上下文能力的提升,记忆能力的提升,就出现了AX:Agent Experience。
这意味着,Agent成为了设计交互时,最需要考虑的对象。
Agent的能力包括:记住你的目标,主动提示下一步操作,并在持续使用中记住你的偏好、操作习惯,甚至识别出你所在团队的工作模式,也就能自动规划路径,感知当前状态、推理意图,并选择最合适的行动。
这些能力将会带来体验上的跃迁,也正在重塑产品设计的基本策略,交互应该围绕着Agent的能力展开。
可以看到,AX并不是单纯的UI/UX的翻版,而是从根上重构交互逻辑:如何与一个拥有一定感知、具备主动性和路径选择能力的系统协作。
同时,AX也不是让AI简单“拟人”,是让人更容易进入“委托→跟踪→干预→验收”的节奏循环。它强调可控性(知道Agent在干嘛)、可预期性(知道会发生什么)、可逆性(可以中断/撤回),以及最重要的:可演进性——Agent要能随用户需求变化逐步学习。
一旦进入工作流,它就不再只是一个工具,而是业务系统不可或缺的一部分,具备更高的替代成本、更强的用户粘性,以及更清晰的商业闭环,从而构筑起天然的产品护城河。
不同的路径,同一个问题
回顾了AI能力在Chatbot和Agent产品上的演变,也看过了如何以AX的概念落实在产品设计上,那么不同的选手,是如何提出自己的方法的呢?
玩家目前分为两种:做“套壳”Agent的AI初创公司,以及拥有成熟产品生态的大厂。
前者是先有技术,再找场景——他们从大模型、Agent等能力出发,努力寻找落地的入口。
而巨头公司则正好相反:他们原本就拥有成熟产品和稳定用户,只需在已有业务中嵌入AI或Agent能力,就能实现体验升级。
这是一种由实际业务需求驱动的场景闭环,典型案例是企业办公软件领域的“御三家”——飞书、钉钉和企业微信。其中,飞书在七月初,升级了知识问答、会议、妙搭等多个功能。“多维表格”现在已然成为他们的拳头产品。
钉钉也推出了自己的AI表格,背后的理念是:AI是表格背后的原生能力,不只是要做一个表格工具,更是一个表格的智能体。
夸克今年针对高考生推出的高考志愿大模型,也是针对垂直场景,结合原有产品的一个Agent应用代表。
在这个对数据和需求拆解有强烈需求的,这种Agent的确是目前实用性最强的形态之一。
不久前的志愿填报季,夸克也不得不因为庞大的需求涌入连夜扩容,几乎把阿里的算力都临时调配过来,最终提供了1200万份志愿报告。
这些产品本来就已经相对成熟了,通过“打AI补丁”的方式,原本的产品形态开始向Agent靠近。而这些Agent一旦跑通,往往能在商业变现上发挥出远超初创公司的潜力。
看上去是很光明的路径,可是要走起来依然困难重重。大厂因组织结构复杂、流程重、安全要求高,往往采用渐进式集成AI;比方说,微软Office的Copilot,最开始选择在侧边栏加一个Copilot插件,辅助你总结文档、起草邮件,顾名思义,承担的依旧是“副驾驶”的角色,不能越俎代庖。
相比之下,初创公司的路径更轻也更直接。比如像YouMind这样的产品从一开始就以Agent逻辑构建——围绕写作展开任务切片,直接让Agent成为“主要执行者”,形成另一种范式。
如何把已有产品的AI化,初创公司和大厂,给出了各自的思路,体现了各有各的优势。
借由过往的积累,大厂拥有历史数据、权限架构、任务链路,以“打补丁”的方式推进渐进升级,让Agent才真正有机会从产品走向商业闭环。
而初创公司,则胜在灵活、纵深。只要能踩中一个痛点,就能留下用户,同时也留住极其个性化的数据,从而与大而全的产品展开差异化竞争。
它们都试图在回答同一个问题:Agent,不只是功能,而是一种新的系统组织方式。
自动化接近完成,但AGI还在路上
在Agent之前,我们早已见过各种自动化的工具。诸如互联网脚本等自动化框架同样在浏览器中通过代码的形式完成自动化操作,但它们大多依赖人工配置,缺乏上下文理解、语言推理和任务拆解能力。
它们是“自动”,但谈不上“智能”。
Agent的出现,本质上是为这些执行流程装上了“大脑”,通过融合大模型的语言理解和推理能力,让它不仅能执行命令,还能主动理解意图→拆解任务→选择工具→反馈结果,实现一个接近闭环的智能执行链。
换句话说,成熟的Agent本质上是一种具备封装能力的调度机制。它连接大模型、插件、API、语义指令和状态缓存的执行中枢,这种架构要成立,离不开足够丰富的开放接口、成熟的工具链,以及更稳定的模型基础设施。
具体到通用Agent,它更可能是一个过渡物种,最终会被嵌入式、垂直化、工作流型Agent替代,就像今天没人真的用iPhone的万能App操作所有事务——大家还是在用微信、携程、WPS,各司其职。
不过,可以欣慰的是,至少有些事,现在不用人类动手了。
相关推荐
Agent爆火背后的隐形推手
从大模型到Agent,游戏规则会改变吗?
比尔·盖茨:GPT-5不会比GPT-4好多少
刚刚,OpenAI 发布了自己的Agent模式,Manus Style
AI Agent变“第二个我”?从惊艳到警觉,只用了五分钟
为什么我们还没看到真正的AI超级App?
Manus“跑路”风波背后,AI Agent的商业化困局
阿里第一批企业级 Agent,为什么落在了瓴羊?
万亿赛道的具身智能,到底是什么?
AI的颠覆性到底在那里?
网址: 爆火了大半年,Agent到底能干好多少活 http://m.xishuta.com/newsview139596.html