首页 > 科技快讯 > OpenAI、Google、Anthropic都在做的Agent工具箱是什么丨晚点播客

OpenAI、Google、Anthropic都在做的Agent工具箱是什么丨晚点播客

晰数塔互联网快讯
2025-10-19 21:01

与常驻硅谷的 AGI House 合伙人聊美国 “Agent 工具箱” 实践。

采访丨程曼祺

整理、撰文丨姚一楠

就在 10 月内，OpenAI、Google、Anthropic 三家最强模型公司都在 Agent 开发工具上有了新动作。

OpenAI 在 10 月 6 日的开发者日上推出 AgentKit 等一系列工具；两天后，Google 发布 Gemini CLI（命令行交互）Extensions，成为 Gemini 开发生态的最新一环；又一周后（10 月 16 日），Claude 也新推出 Claude Skills，让用户不用编程，就能通过 “文件夹系统” 简单地定义工作流。

不管是帮助开发者构建独立 AI 或 Agent 产品，还是试图让用户直接在自家 Chatbot 产品里定制更复杂的应用，这些纷繁的 Agent 工具都指向一个自然的需求：当模型一次次升级，怎么用好这些新能力成为重要课题。

核心模型厂商外，“Agent 工具箱” 也已成为硅谷的一个创业机会。今年夏天，开源 AI 框架公司 LangChain 融资 1 亿美元，成为新独角兽；语音模型提供商 ElevenLabs 卖员工老股的最新估值已来到 66 亿美元；OpenAI 也在 9 月以 11 亿美元全股收购做 ABtest 和 AI 应用评估（Evals）工具的，其创始人维贾耶·拉吉（Vijaye Raji）出任 OpenAI 应用业务线 CTO（CTO of Applications）。

本期，我们邀请了两位常驻硅谷的朋友，AGI house 的 Henry Yin 和 Naomi Xia，来一起聊 Agent 工具链（Agentic Tooling）的发展趋势，和这个领域在美国的创业实践。

Henry Yin 毕业于清华姚班，后前往伯克利攻读博士，期间退学创办思码逸（Merico），用 AI 提升开发者效率，长期关注 Agent 工具链与应用层创新。他目前也在筹备一个新的社区型基金 MoE Capital (Mixture of Experts)，希望和一群顶尖 AI 研究者和产品经理一起探索下一代 AI 创业与投资模式。

Henry 梳理了 Agent 工具链领域的 “6 次进化”。在他看来， Agent 工具的发展始终围绕模型能力的跃迁，ChatGPT 发布催生 LangChain 框架，Anthropic 提出 MCP 协议为 Composio 转型提供抓手，GPT-4o 推出高级语音模式为 LiveKit 带来爆发式增长。模型升级的间隔越来越短，机会涌现的节奏也在加快。

Naomi Xia 毕业于沃顿商学院，曾任职于摩根大通 AI 投融资团队，现在负责 AGI House 早期投资，已投资的 20 多家公司就有上文提及的 Composio 和 Livekit。

Naomi 分享了 AGI House 投资的逻辑。在她看来，过往全球开发者工具市场规模约 200 到 300 亿美元，AI 可能把这个市场规模推高十倍。

OpenAI 踏出迈向平台一步，通过 AgentKit 把好武功带给开发者

晚点：10 月 6 日 OpenAI 举办第三届开发者日（DevDay），有不少更新。我们可以先从其中和 Agent（智能体）相关的 AgentKit 聊起，它的整体产品思路是怎样的，有哪些亮点？

Henry：这次的 AgentKit 是 OpenAI 自己练好了一身武功，现在开放给开发者。它几乎涵盖了整个 Agent 开发周期。

首先是构建，这次新推出了 Agent Builder —— 一个可视化工具，通过拖拽就能快速搭建 Agent。然后是前端部署，OpenAI 推出了 ChatKit，允许开发者在自己的应用中快速嵌入类似 ChatGPT 的聊天界面，与 OpenAI 的模型实时交互。最后是 Agent 上线后持续维护、优化，OpenAI 提供了监控、评估和改进的一套工具，“New Evals”（Evals 指 Evaluation，即评估），新增 datasets（数据集管理）、自动 prompt 优化（自动提示词优化）、Trace grading（痕迹分级）、以及 reinforcement fine tuning（强化微调）等功能。整个流程一条龙打通。

其中评估这部分，我本来觉得是某些 Agent 公司的护城河，但现在看这些能力正在被标准化，OpenAI 自己也做了。

晚点：可以解释下什么是 Trace grading ？

Henry：所谓 Trace，就是一次完整的用户与 Agent 交互流程。比如用户让 Booking.com 帮他订机票，从输入出发地、日期，到订票成功或失败结束，这是一个 Trace。

Trace grading 则是通过写 grading（评价函数），判断整个交互中哪些做得好、哪些不好，并给出标签或评分。评分可以手动打，也可以让 LLM 来做评审。

晚点：Agent Builder 这部分是不是有点像 Dify 或字节的 Coze？它是通过 workflow 把组件串成 Agent？

Henry：非常类似。在他们展示的一个 demo 里就是第一步先做提示词分类，然后接一个 if/else 分支。是人手写工作流。

所以这次也有一个批评，认为 Agent Builder 的思路与 AGI 有分歧。大部分人都认同，最后的终局是高度自动化的、能执行多步任务、持续使用工具的智能体。这需要把现在人工手写的流程吃到模型里。而 Agent Builder 是先画流程图，两者路径几乎相反。

整个 AgentKit 的思路，更多还是现在就能在企业里落地，这对追求研究者来说并不性感。比如我身边的很多开发者，平时大多用 Anthropic 的 Claude Code 或 OpenAI 的 Codex 这类工具来构建 Agent，所以拖拉拽式的形式对他们的工作流影响不大。

但对大客户来说，AgentKit 安全、好理解、能落地。所以我觉得它能卖单。

晚点：这次除了 AgentKit，一个重磅发布是 Apps in ChatGPT 和 Apps SDK，开发者日的第一项发布就是这个。会后 ChatGPT 负责人 Nick Turley 也直接告诉媒体，ChatGPT 有潜力变成个操作系统。

Henry：把 ChatGPT 当做操作系统，这已经不是第一次炒作了。第一次是两年前的 CustomGPTs，但最终多数 GPTs 只是带 logo 的一个 prompt 模板，因为当时去调外部数据很麻烦，也不能用第三方服务，也不能存储状态、发送通知或运行工作流。

晚点：你觉得这次会和 GPTs 不一样。

Henry：有很大变化。现在有了 AgentKit 和 Apps SDK，它就类似 iOS 的开发 SDK，终于可以调用外部工具了，还补上了 UI 组件，这是一个真正的平台，也有一套更完整的工具箱，而不只是一个 prompt 包装。

更重要的是开发者的分发红利。现在 ChatGPT 官方公布的周活有 8 亿。只要你在 ChatGPT 里做出一个好应用，立刻能触达大量用户，冷启动问题会小很多。

还有个意义是信任背书。大企业在意安全、合规，更愿意从 ChatGPT 等更大的平台引入服务。这能帮开发者进入大型企业采购流程。

相比两年前，OpenAI 这次也找了更多合作伙伴，比如 Canva、Booking.com 等，展示了更扎实的的初始应用。

晚点：有什么你印象比较深的初始应用吗？

Henry：Canva 的体验就好了不少。GPTs 时的 Canva 只能照指令给你生一张图；现在的 Canva in ChatGPT，会先经过授权后，和你的 Canva 账号绑定，把你已有的设计信息用到新任务里。

其实两年前 Canva 已属于高质量 GPTs 了，但当时一般开发者达不到这个效果。这次工具链更成熟，更多开发者有可能做出和首发合作伙伴效果相似的应用。

晚点：其实 2024 年，Anthropic 抢走了不少 OpenAI 的 to B 份额，之前一段时间，OpenAI 给外界印象也是在 to C 超级应用上更激进。

Herny：我觉得 OpenAI 不会放弃 to B。第一，用户规模上 ChatGPT 周活 8 亿，已经是 “操作系统级” 的流量入口；第二，生态压力，Anthropic、Google 都在猛推企业侧和开发者侧，OpenAI 不可能只靠 to C；同时，从模型能力上，B 端数据和使用偏好对提升模型也很重要；现在很多 C 端用户也是在生产力场景里使用 ChatGPT ，B 端数据的反馈也能反哺这块。

从团队变化也能看出来，比如他们新成立了 “The Future of Work” 的团队，专门加速 AI 在各种商业场景的落地——像客服、合同审核、数据分析、商业线索转化等。

OpenAI 在自己的频道上还发了一系列 “OpenAI on OpenAI” 的视频，基本覆盖了我刚才提到的那些场景。

比如说商业线索转化，OpenAI 现在每月大概能获得 1.3 万条销售线索，以前人力最多能对其中约 1000 条做个性化回复，有了 AI 后效率显著提升。

再比如，现在 ChatGPT 的客服基本由 AI 驱动。这个 AI 会与内部知识库、政策库交互，为用户提供服务；服务过程中持续做评估与改进。Agent 的 “痕迹分级（Trace grading）” 结果，会反哺知识库和政策库。

OpenAI 把 Agent 反复做下来，工具被打磨得更好，最后沉淀成了 AgentKit，再分享给开发者。

晚点：OpenAI 现在同时投入这么多方向，这会分散它的注意力，影响追求 AGI 的速度吗？

Henry：Sam 现在的想法可能是：我全都要。OpenAI 扩张速度也很快，已经好几千人了，人多了就可能分叉；而且为了支撑越来越高的估值，OpenAI 商业化和营收压力也在不断上升。

晚点：OpenAI 裹挟了这么多投资，又和微软、英伟达、AMD、英特尔、甲骨文等美国一批最大的科技公司相互采购，一种观点认为，如此纠缠的利益，已让它大而不能倒。

Henry：它现在可能确实是 too big to fail（大而不能倒），但 Sam 的野心不止于 5000 亿美元的估值。

晚点：这次发布后，你身边的创业者感受到的机会和压力分别是什么？

Henry：大多数人看到的还是机会。新平台把创业者和开发者和用户拉得更近。

压力有两个方面：

- 一是数据与留存的不对称。现在 app 的上下文与数据多托管在平台方，初创团队拿到的只是有限的上下文调用，而不是完整的用户行为或分析数据。这样很难真正建立用户关系、优化留存。换句话说，就是在别人家的地基上建房，根基不稳。

- 二是平台自己下场做的可能性。像 OpenAI 掌握完整的数据和用户对话记录，所以平台上那些看起来很有潜力的机会，也有可能被 OpenAI 直接吃掉。

晚点：上次和 Pokee.AI 创始人 Bill Zhu 聊 Google 时，他有个类似的推演：Google 做开发者生态，一旦看到一些方向的潜力，可能自己下场做。

Henry：大家对 Google 反而没那么担心。Google 做应用的速度追不上初创公司；但 OpenAI 节奏快得多。

晚点：本身应用超强，是不是有可能是 OpenAI 做开发者生态的一个不利因素？

Henry：关键看 OpenAI 怎么定位。现在 AgentKit 只能用 OpenAI 的模型，是在评估的环节可以用到第三方的模型。

如果 OpenAI 真把 App SDK 和 GPT 形式的应用当成主要商业模式，就应该把自己定位成平台，在 Agent 构建过程中放开工具和模型选择。但目前还在试验阶段。

晚点：你觉得这种大模型操作系统或者说 AI 应用开发平台的机会最后能容纳几个玩家？

Herny：看流量入口有几个。现在最大的是 Gemini 和 ChatGPT。前几天的数据是，Gemini 的总用户量已超过 ChatGPT，但这是算了全平台用户量，比如在 Gmail 里打开了 Gemini 也会被计入。不过不管怎样，Gemini 的追赶势头很猛。

在做开发者工具上，两边都比较强：Gemini AI Studio 的功能越来越全，OpenAI 这边也刚发了一堆面向 Agent 开发的能力。

从 LangChain 到 Operator，Agentic Tooling 的 6 次进化

晚点：你们最近关注智能体工具链（Agentic tooling）的机会，简单来说，这都包含什么？

Henry：Agentic tooling 就是构建虚拟数字人所需的工具和身体部件。

AGI 的一种定义是虚拟数字人：过去计算机是工具，人去适应机器；现在计算机会更像人，来适应我们。交互感受更加自然，从 “人机” 走向 “人人 “。要实现这一点，只有聪明的大脑不够，还要能听、能说、能行动的身体。

对应到具体部件，骨架就是 Agent 框架，代表公司是 LangChain，负责 Agent 能力协调调度；左右手是工具与浏览，左手是 MCP 协议，右手是 Browser Use，允许 Agent 像人一样用浏览器获取信息、操作交互；眼、耳、口这些器官是 Agent 感知部件，例如 ElevenLabs 做高质量语音合成，是 “嘴巴”，LiveKit 提供实时音视频基础设施，是 “眼睛和耳朵”；数字人还需要教练来持续评估表现、监督与改进，于是有了 Braintrust、Galileo 等公司专注 Agent 评测与可靠性保障。

Naomi：最近这个领域刚好有三个标志性事件。

第一是 ElevenLabs 员工将金额约 1 亿美元的老股以 66 亿美元估值卖给投资人。这时候距离 C 轮只有 9 个月，公司估值已翻倍。 ElevenLabs 做的是 AI 语音合成，增长和商业化进展都很快。

第二是 LangChain 刚刚以估值 11 亿美元敲定一笔约 1 亿美元的新融资，IVP 领投。这说明基金还在加码工具链这层的开发者基础设施。

第三是 OpenAI 用 11 亿美元全股并购 Statsig。Statsig 做的是 AB 测试、功能逐步发布和数据指标闭环。直白说，就是评估模型效果，按节奏扩大流量。OpenAI 把这块从外挂工具变成了内置组件。

把这三件事放在一起看，可以看到清晰的节奏：一头是 Agentic tooling 的大规模落地，一头是工具链核心组件持续获资本加注，同时巨头在做战略整合。

晚点：从这轮 AI 热潮以来，工具层已出现很多轮变化，从最开始的提示词工程、RAG 再到上下文工程，你会怎么总结这个变化脉络？

Henry：我觉得 Agent 工具的发展始终围绕模型能力的跃迁。借用虚拟数字人的比喻，过去两三年我们见证 “大脑” 一再升级；每次升级都会暴露 “身体” 的短板，随之催生一波新工具来补齐。大致经历了六次主要升级。

第一次升级在 2022 年底，ChatGPT 和 GPT-3.5 发布。全球第一次直观感受到 LLM 的力量，大家都想拿它做应用。很快发现仅靠 “会聊天” 的脑子不够：还需要用到外部数据、管理上下文、把多个 LLM 调用编排起来处理复杂任务。于是 LangChain 等框架出现，提供脚手架让开发者可以更快构建应用。那会儿大家还不叫它 “Agent”，不过很快就有了。

第二次升级大约在 2023 年 6 月，OpenAI 首次在 API 里官方支持 function calling（工具使用），LLM 开始能按上下文需要调用外围工具。从那时起，越来越多人专门为 LLM 写工具。为了写一个像样的 Agent，八九成精力都花在 “写好工具” 上。

第二次升级的另一个关键节点是 2024 年 11 月，Anthropic 发布 MCP 协议，让工具在不同模型间更易复用。不少工具提供方顺势转成 MCP Server 提供商。

第三次升级在语音。 2024 年 5 月，GPT-4o 的 Advanced Voice 模式推出，第一次像 “人” 的高质量语音交互雏形出现，也带火了实时音视频传输需求。LiveKit 因为是 4o 背后的基础设施，迎来一波爆发式增长。

第四次升级在 coding。2024 年 Claude 3.5 Sonnet 的发布和迭代带来了 Cursor 的成功。AI 写代码能力大幅增强，连数据分析都能用 “写代码” 来完成，于是对 “安全执行代码” 的沙盒环境需求暴涨，产生了 E2B、Daytona 这样的代表公司。

第五次升级在推理能力的突破。 2024 年 9 月 OpenAI 发布 o1 preview。推理能力提升后，Agent 能根据任务自行规划步骤与选择工具，由此催生两类工具：（1）OpenAI、Fireworks 提供的强化学习微调工具，大家用它在模型外通过 RL 增强 Agent 能力；（2）Braintrust、Galileo 提供的评估与监督工具，复杂任务更需要它。

第六次升级是 Computer use 和 Browser Use 能力的出现。 2024 年 10 月，Anthropic 率先发布 Computer use 模型，随后 OpenAI 推出 Operator。Agent 终于能像人一样用浏览器完成任务，随之形成一条完整的浏览器生态：底层是云端浏览器基础设施（Browserbase、Anchor Browser），上层是直接给开发者的自然语言 API（例如 “帮我订个外卖”）。

晚点：工具调用方面，最早 OpenAI 在 2023 年 6 月推出 function calling，现在更主流的协议却是 Anthropic 发起的 MCP。这是为什么？

Henry：Claude 在 “怎么把 tool use 做强” 上花了很多时间，过程中沉淀出 MCP。OpenAI 虽然先到了这个，但之前没有 Anthropic 在这上面花的精力多。

晚点：下一次进化会是什么？

Henry：很难预测。相对确定的是，所有大模型厂商都会继续加注 Agent 能力：一是推理，二是工具使用，三是语音。另外，多模态会更深融合，比如最近的 “Nano Banana” 就是图片模型和大语言模型结合。

用 Agent 做的工具已经能搭建出高质量的 Agent

晚点：刚才你梳理了 Agentic tool 的发展脉络，这个领域也出现了很多第三方创业公司，你具体会关注什么方向，有哪些公司？

Henry：首先，Agent 变强后，配套工具的质量必须提升，能支持更细、更复杂的操作。现在很多 MCP Server 还是偏 read-only，场景上用 Reddit、Twitter 的 MCP Server 做深度研究较多；但随着模型推理和调用工具能力变强，Agent 可能去做带风险的 “写”。Naomi 最近投了 Composio ，可以分享一下。

Naomi：Composio 是 MCP 的集成商，能提供高质量 MCP Server。它不止能调工具，更多保证任务的可靠执行，等于给 Agent 提供了一套更完整的操作系统。

晚点：MCP Server 集成商具体是做什么的？

Naomi：MCP Server 有点像 API 接口，你调用 MCP Server 就像在集市上选择工具组装起来。Composio 可以帮你搭建 MCP Server，你只需要点几下就可以调用你希望唤起的智能体。

Henry：我补充一下，Composio 提供几百个高质量的 MCP Server 供选择。

Composio 在产品层面分两部分：一部分是平台，开发者通过编程把平台上的 MCP Server 接到自己的 Agent；另一部分是偏 prosumer （消费者 + 生产者）的产品叫 Rube，它最近增长很快，因为解决了在 Cursor 中只能同时调用 3 个 MCP Server 这个痛点。 Rube 提供了 MetaMCP Server，可以根据任务自动调用正确的 MCP Server，“one MCP Server to rule them all”。

晚点：一个 MCP Server 里能有多少工具，现在受什么限制？

Henry：每个 Server 可以接多种工具，具体数量取决于设计者取舍和产品复杂度。比如做 Gmail 的 MCP Server，如果想覆盖 Gmail 大部分功能，工具就会很多。但功能接近的工具会让模型困惑，不知道该调用哪个，就容易出错。

晚点：你们最初是怎么注意到 Composio 的？

Naomi：在 AGI House 我们经常办大型黑客活动，开发者做 AI Agent 必须调用多种工具，我们就在想能不能做一个集合型 Agent，在执行任务时可以同时接入多个 MCP 服务器。来自社区的一线反馈说，Composio 比较可靠，调用这些工具很顺滑。我们也很喜欢他们团队这种坚毅以及高效行动的风格。

Naomi：2023 年 7 月 Composio 在印度成立，最初想做 “自动生成集成代码” 的智能体，但代码准确度不够。他们发现原因是模型调用工具的过程不稳定，于是转向搭建智能体的技能层——把通用工具封装成可直接调用的技能。

团队在资源匮乏的印度起步，却凭借高质量技术演示和社区驱动迅速出圈，创始人亲自下场在 Reddit、Discord 与开发者共创迭代。凭借这种强执行力与技术直觉，他们最终拿到光速创投（LSVP）领投的 A 轮投资。2024 年 6 月产品上线时已积累 ClickUp、Gleam 等早期客户。

Henry：最有意思的是，Composio 一开始做 Agent，后来转成 Agentic tooling。之所以能成为 tooling 公司，是因为它把 Agent 做得好。

晚点：既然 Agent 做得好，为什么要转向工具链？

Henry：他现在还在做 Agent，只是业务拓展到了 Agentic tooling。最初他们在印度的 Agent 质量高就是因为在用 Agent 自动写 Server。他们在 MCP 出来前看到做工具集成调用的机会开始转向，MCP 发布后产品迎来一波爆发。

Naomi：Composio 本质是一家 Agent 公司。平台上的 MCP Server 基本都由自家 AI Agent 自动写代码完成。他不只是卖工具，更用自身业务的数据做飞轮，持续生成和优化工具。它的壁垒不仅在平台有多少工具，还在大规模自动化集成、处理、优化海量数据的能力。

晚点：这具体指什么？

Henry：每次用户与 Composio 交互，都会创建一个 Agent 会话（session）。一次会话里，一个任务可能要调用多个工具。整个过程都会被记录成日志（log），再由另一个 Agent 审查：调用成功还是失败？失败的话原因是什么，成功的话有没有优化空间？

Composio 会有专门的 Agent 分析每个会话日志，自动写出改进的 Pull Request，直接改进 MCP 服务器，整条链路都是自动化的。

编者注：Pull Request（PR），是指开源软件项目中，贡献者提交代码更改到代码库的请求。该术语主要用于 GitHub 等网站。

晚点：Anthropic 为何不自己做 MCP Market？就像苹果做 App Store。

Naomi：因为这事不增强它的护城河。Anthropic 是大模型公司，优势在模型输出效果和安全性，把人力投到第三方 API 的维护只会分散资源。

晚点：Agent 在浏览器、手机上的执行成功率并不高，你们觉得 MCP 生态会怎么发展？

Henry：先说可靠性。桌面端常用的基准测试是 OSWorld，浏览器端是 WebArena，最好的模型在这些基准上成功率也就 60%～70%。这种成功率很多场景不可用，比如美国医疗建档。

但面向长尾场景，很多服务和网站不在 MCP 覆盖范围，Browser Use 是有价值的。比如很多日本的精品酒店没接入 OTA（Online Travel Agency，在线旅行社），有人用浏览器操作抓取空房日志，把信息组合后提供给搜索引擎，用户就能搜到这些酒店。

晚点：在移动生态里应用间相对封闭，长期他们会愿意融入 MCP 生态吗？

Henry：有观点认为，ChatGPT 终局是 WeChatGPT。AI 越来越强，越像数字人。而我们办事本质是和人沟通。等到 ChatGPT 把所有事装进一个应用里，所有服务提供方都会被迫为大模型开放交互接口。

美国顶尖实验室都在加码 AI 语音，但有时 AI 不像人反而更好

晚点：除了 Broswer Use 和 Phone Use，智能体工具领域还有哪些你关注的方向？

Henry：我们还很看好语音。现在全球每天约 100 亿次通话，很大一部分是商业通话，比如客服，面向企业服务的 AI 机会很大；第二类是个人助理或情感陪伴，增长也很快。

这块我们很关注 LiveKit。LiveKit 成立于疫情期，一开始服务远程办公需求，基于 WebRTC 的实时音视频传输，与 AI 关系不大。第一次 AI 方向的爆发来自 GPT-4o 把 LiveKit 用作语音传输层，之后它从底层往上丰富产品，现在用它的 SDK 能方便地搭建语音 Agent 。

现在 LiveKit 每天支撑约 2000 万次通话，一年前数据是 100 万，年增 20 倍。企业层面，OpenAI 、Character.AI 以及 Grok 的语音层都由 LiveKit 驱动，全美最大的 CRM 公司 Salesforce 马上要把客服智能体部署在 LiveKit 平台；公共服务层面，LiveKit 可以支持美国 911 约 25% 的呼叫，通过直播现场让接线员了解情况，还能转接心肺复苏的教练，大概每周能多救回一条人命。这是我们决定投资的关键。国内 LiveKit 用得还不多，但增长也很快。

晚点： LiveKit 上现在用得最多的语音模型来自哪个厂商？

Henry：OpenAI、ElevenLabs、Cartesia 的模型都有接入。LiveKit 平台可以支持两种范式的模型：一种是级联式语音智能体（Cascade Voice Agent）：先语音转文本（STT），再过大模型，最后文本转语音（TTS）；另一种是语音到语音，比如 OpenAI 的 GPT 语音输入，语音输出。

晚点：两种范式都有用户在用吗？前一种在某些场景综合成本是不是更好？

Henry：我们判断终局会是 “语音到语音”，因为模型能识别情绪这种上下文呈现不了的细节。但现在很多人仍用 “级联式”（语音→文本→大模型→文本→语音），原因有两点：一是更可控，语音转成文本后能写入保护和规则判断；二是并非所有场景都需要像人，比如医院客服只要按要求提供信息，AI 不那么像人反而更好。

晚点：我们之前聊过，美国一些顶尖 AI 实验室都在加大对语音能力的投入。这释放了什么信号？

Henry：我有两个观察。

一个是现在有公司专门给它们提供语音数据，成长很快、融资不错。比如 David AI，最近几个月拿了约 2500 万美元的 C 轮。

另外，OpenAI 上周发布了 GPT 实时（Real-Time GPT）API 的正式版，相比去年 10 月的 1.0 版本主要有两点改进：一是更像人了，说话的语调、表达的丰富度更自然，对 “更温情 / 更职业化” 等指令的执行更到位；二是能更好理解笑声、情绪，也能在说到一半时顺畅切换语种。

晚点： Anthropic 在多模态上的投入更少，是不是没在参与这方面竞争？

Henry：我觉得 Anthropic 已经全力押注编程了。留在语音牌桌上还是 Grok、OpenAI、Google 这些大玩家。

Agent 的四种记忆，和 Letta 的全新记忆方案

晚点：你之前提到，记忆是 Agentic tooling 的重要方向。这个领域可能有机会，一些公司也有动作，能讲讲吗？

Henry：我们可以从四类记忆说起：它们是什么，以及如何帮助 Agent 更好地完成任务。

第一类，情境记忆。比如客服机器人记得上周和你聊过，尝试过方案 X。好处是避免重复操作，保持对话连续性。

第二类，流程记忆。比如 Agent 记得上周部署在第三步失败，它就会避免重复错误，改走有效路径。这类记忆适用于企业搭建智能体工作流。

第三类，存储事实的知识记忆。比如 Agent 给用户购物时能去折扣规则库里检索可用折扣，不会编出不存在的折扣。规则库也算记忆的一部分。

第四类，角色记忆或人格记忆。它记录一套人格或风格设定，适用于情感陪伴。比如 AI 男友女友要保持既定的交流风格，不能出戏。

这方面我们接触最多、增速也很快的一家叫 Letta，由两位伯克利的博士毕业后创立，帮 Agent 开发者做 “有状态的智能体（State for Agent）”。

他们提出个有意思的概念：睡眠时计算（Sleep-time Compute）。大家熟悉的是推理时计算（Test-time Compute）——推理步骤中多消耗些 token 输出效果更好。Letta 不是在推理时烧 token，而是在系统空闲时做整理。就像白天开了很多会，晚上用睡觉时间回放处理，把信息沉淀成学习内容和洞见。

晚点：用户会不会不愿把数据给 Letta？自动驾驶里有先例：国内自动驾驶的初创公司优化算法需要司机数据，但车企是大客户，出于竞争和数据敏感性不愿给，结果一家一家去谈很麻烦。

Henry：我觉得类似情景不太会出现。现在的 Agent 应用市场更分散、更多样，很多创业公司体量小，商业话语权不强。

晚点：Agent 公司不会自己做这块吗？

Henry：早期没有最优标准，大家都在摸索，于是 “八仙过海”。等弄清楚该用哪类记忆、怎么用最好，标准化产品会出现。像 Letta 把脏活累活包了，开发者就能把精力放在核心竞争力上。

晚点：OpenAI 今年不是也上线了记忆功能？

Henry：OpenAI 的记忆有了明显改进。举个例子——我说 “今天生日我妈妈给我做了我最喜欢的甜点提拉米苏。”

以前是把整句直接塞进 ChatGPT 的记忆，这有两个问题：不知道 “我” 是谁，也不知道生日是多少。

现在会拆成结构化的几条：（1）Henry 的生日是 9 月 18 日；（2）Henry 喜欢提拉米苏；（3）在生日当天，Henry 的妈妈给他做了他喜欢的提拉米苏。这样后续查询更好用。

晚点：大模型能力进化后能自己搞定记忆能力吗？

Henry：大模型的演进和 “记忆” 是两条线。模型层与记忆最相关的是上下文会变长，但上下文不是免费的午餐，越长成本越贵，性能还可能下滑。

晚点：今年被很多 Agent 公司关注的上下文工程（context engineering）和记忆的关系是什么？

Henry：记忆最终要用，必须塞进上下文，所以它属于上下文工程的一部分。

上下文工程的本质，是决定哪些信息该进上下文。它涉及两个循环：本次生成时，内循环决定哪些信息进入上下文；从长期看，外循环决定如何提升把 “对的信息” 塞进上下文的能力。

相比之下，长期记忆更像 “工具层”，不是模型本体，而是大模型的外接硬盘。

所有人都觉得 “评估” 重要，但都做得不够好

晚点：想展开聊聊你刚提到的 “评估”，最近 OpenAI 以 11 亿美元收购了 Statsig。标准化的第三方评估工具会有创业机会吗？

Henry：有趣的是，几乎所有人都认为评估很重要，但大多数公司不愿做评估，因为这件事很难做。

举个 LiveKit 的例子。某家大客户做语音 Agent 客服，发现通话经常提前挂断，体验很差。于是他们在提示词里加了一句：你不要那么早挂电话。上线前，工程师只打了三四个测试电话，感觉确实晚了一点，就直接推到生产环境；按理说，至少要先打个几百通电话，再决定是否上线。可现在硅谷流行的是 “Vibe Checking”，感觉（Vibe）对上就直接部署了。

而且，除了专门做评估的公司，做业务的公司自己也会加入评估组件。

晚点：大家觉得评估重要，但做起来难，难在哪里？

Henry：一是成本高。评估数据很多需要人工标注。任务越复杂，成本越高。

二是策划与共识。团队常对 “用什么数据、怎么构建数据集” 没有一致意见。还会出现很搞笑的情况：辛苦做出一个数据集，评估下来变好了，本人却不信——“数据集说变好了，但我感觉变差了”。

晚点：哪些 LLM 的任务更好评估，哪些难评？

Henry：OpenAI 和 DeepSeek 把强化学习放在编程和数学上，因为评估信号清晰，模型能最大化从反馈里学习。难评估的是主观性强或本身复杂度高的任务。

Agent 工具的市场规模可以到 2000-5000 亿美元，已经诞生巨头

晚点：最后想聊聊 Agent 工具（Agentic tooling）的商业层面给，你们觉得市场规模可能有多大？

Naomi：全球软件市场年销售约 6500 亿美元，开发者工具（DevTools）拿中低个位数百分比。粗算 DevTools 规模约 200 到 300 亿美元。

但这波 AI Agent 改变了游戏规则。红杉曾预测，AI 会把软件市场的天花板从六千多亿推到约 10 万亿美元，因为它能切入服务业，把原来靠人力的服务转成软件。如果这个判断成立，那么为 AI Agent 提供 “武器装备” 的 Agent 工具市场规模也会随之跃升。套用 5% 的市场份额，DevTools 的长期规模可能达到 2000 亿到 5000 亿美元。

我们认为，这一波 AI 不是瓜分存量，而是在创造增量，这也是我们看好这个市场的原因。

晚点：这个市场里会不会出现年收入 100 亿美元的大公司？

Naomi：我觉得，这事已经在发生。我们可以从三个角度看。

第一个角度，先看市场有多大。我们刚刚用 Devtools 公司做参考：做身份认证的 Okta 最近一年收入大概在 20 亿美元，云通信巨头 Twilio 高峰期年收入大概在 40 亿美元。

我们觉得 AI Agent 的经济体量可能会是实体经济的十几倍。服务这套新经济的基础设施，比如智能体的验证，市场空间也可能是十倍以上。如果 Okta 能到 200 亿美元，那 AI Agent 的身份与调度可能就是数百亿美元级别的市场，对应 AI native 的公司是 Composio。

第二个角度，不是所有巨头都会被颠覆，关键看范式迁移发生在哪里。我们觉得真正的机会来自 AI Agent 带来的全新需求，举三个例子。

第一个例子在可观测性。Datadog 做系统可观测年收入超过 20 亿美元；面向 Agent 的观测平台，规模可能更大，代表公司如 Braintrust 把智能体的执行过程拆开，不仅看服务器指标，还能回放、调试 AI 行为。

第二例子在 Agent 实时通信。Twilio 做人对人通信，年收入约 40 亿美元；人和 Agent 系统的交互对话状态更复杂，对延迟要求更高。像 LiveKit 正做低延迟的语音交互基础设施，本质是在构建下一代专用通信层。

第三个例子在 Agent 模块和现有工作流的集成。比如 Claude Code 属于自主编码的 Agent，有点像 GitHub 加 “工作台” 的模式。它不会取代 GitHub，但会拉动一整套新工具链，比如代码审计、回归测试、安全执行。企业可以像拼乐高一样，把 AI 嵌进现有工作流。

第三个角度，什么公司最可能长到百亿美元？不能仅仅简单拼工具，更看能不能形成网络效应和数据壁垒。

可以从三个维度看。第一，它是否正在成为行业标准；第二，有没有自进化的数据闭环，比如 Composio，用得越多，通过率越高，成本越低，壁垒越厚；第三，能不能卡住某个关键工作流节点，比如 LiveKit 做实时通信，Braintrust 做可观测性，调用量越大，数据越值钱，越容易长成百亿公司。

题图来源：OpenAI