本文来自微信公众号:极客公园 (ID:geekpark),作者:张勇毅,原文标题:《狂热过后,我和几位硬件工程师聊了聊 Manus 的价值和意义》
在昨天拿到Manus AI的测试码、连续进行了数个小时的测试之后,有不少在手机/PC厂商的工程师/产品经理朋友,来找我「打听」Manus AI的真正能力如何。
为什么硬件行业这么关注Manus?这与当下硬件行业最受关注的概念——LAM有关。LAM是一个从LLM延伸而来的名词,全名为大型行动模型(Large Action Models),也称为大型智能体模型。
与LLM致力于「超越人类」,因此在训练方法上也经常突破人类经验完全不同,现阶段LAM想要做到的,是成为人类的手,去作为人类用户在数字世界中的代理人。
这与Manus的核心理念有相通之处。目前而言,Manus AI的体验,围绕在一个运行在云端的Ubuntu操作系统虚拟机上,同时在操作系统中打开Chrome浏览器界面,在网页中或是调用其他软件,来完成各种用户的请求。
为了完成这个要求,Manus需求同时具备「自然语义理解和计算机视觉」,以及「用户行为习惯学习与场景感知」,同时拥有「意图识别自主决策」的能力,当然最重要的,同时也是让Manus AI与此前的Computer Use在体验上拉开明显差距的,还是「跨应用调用工具」的能力。
举例来讲,对于常见的「能不能用Manus AI生成一段视频」这个问题,严格来讲回答是「可以」,但Manus AI去生成一段视频的方式,也是通过在网络上搜索第三方AI视频生成工具,并在这个过程中使用到各种工具,来完成用户的请求。
01、LAM真正的未来
进入2025年,Agent AI,或者说LAM在端侧的落地,已经是再明显不过的趋势。但怎么落地,以及最终呈现给用户的会是怎样的商业产品,仍然有很多问题。
早在2024年初,彼时发布的Rabbit R1硬件,以及对应的LAM工具——Rabbit LAM Playground其实已经展现出了今天我们在Manus AI中看到的能力雏形。
在官方的演示中,Rabbit R1所搭载的LAM Playground,能主动帮助用户完成类似音乐播放、打车等服务,实际上背后的技术原理,就是通过使用LAM来访问对应服务的网站,通过模拟人类与网站的交互方式,完成用户指令中的工作内容。
但彼时的Rabbit Playground受限于模型以及开发能力的限制,还并不能做到像人类一样,在互联网中畅通无阻。
在实际用户的测试中,面对类似人机验证这样的场景Rabbit Playground仍然难以通过,也无法使用第三方工具,来完成生成复杂表格、导出PPT这样的用户需求。
由于在实际使用中面临着诸多挑战,Rabbit R1作为一款明星AI硬件,很快就退出主流用户的视野,AI时代的热点变化的是如此之快,以至于到了2025年年初,在互联网上已经很难找到关于这款产品讨论的声音。
但LAM这个概念,作为一个可能改变人类用户与智能硬件设备交互的火种,留存了下来,仍然作为行业中一个重要的研究方向而存在。
Manus AI的出现,尤其是它在自然语义理解,以及在互联网访问网站时,面对各种各样的人机识别,都能「畅行无阻」的能力,让不少仍然在致力于LAM产品开发、并希望在今年推出相关测试产品的人,再次看到了一个契机,并希望通过Manus AI目前的能力以及展现出的短板,来进一步完善自己的产品。
Manus AI已经能在遇到各种人机验证时成功通过,大幅提升了对互联网的访问能力|图片来源:极客公园
目前,在致力于开发LAM产品、来提升用户对手机/电脑等产品使用体验的硬件厂商中,系统级厂商在做LAM中,有着最明显的优势。
「Manus AI这种命令执行方式,对于算力要求非常高,但如果是浏览器或智能手机操作系统来做这件事,能通过获得更多高质量数据的方式,大幅降低算力成本与提升运行速度」。
「做通用LAM并不用针对某些单一网站去适配,虽然在某些场景下可能」
「ManusAI中的一些简单的场景,并不需要完全搬到(云端)上面去处理,反而是留在端侧效果会更好」据这位面向桌面端开发LAM应用的开发者介绍,当前的端侧模型经过针对性训练之后,目前也能实现简单的通用网页访问并内容识别能力,已经能初步完成例如「访问旅游相关网站并制定旅游计划」这样的需求。
此外由于端侧有着更便捷的文件管理系统,同时也有更强大的本地文件管理工具,遇到类似「整理并分析简历」这样的需求,端侧LAM同样能做到更好的效果。
在我的实际测试中,我想要让Manus AI帮我生成一个PPT文件,它就能自动在电脑上安装对应的依赖环境,然后利用工具来自动完成PPT生成,虽然最终仍然完成了用户指令中的需求,但仍然因此大幅拉低了对请求的响应时间。
02、如何理解Manus的意义
当前,Manus AI展示出的逻辑中,已经向外界展示了LAM在「生产力」领域能带来怎样的改变,但仍然有很多问题亟待解答。
其中最重要的,也是被问到最多的,或许就是商业化这件事:不少用户对于Manus AI这样的服务,最终会定价多少有着诸多的猜测。
除了类似Manus AI这样,完全交给云端运行,用户端只需要「输入命令-返回成果」的模式,前面提到的不少硬件厂商,实际上是将端侧/云端混合运行的模式作为主流方案。
这其实也暗示了,未来LAM的发展,或许将分为两个不同的主流方向;不仅有基于现有硬件算力,在端侧实现性能稍差的LAM,也有完全基于云端的「数字代理」服务。
但这样的服务,距离最终投向市场可能还有不小的距离。「Manus AI如果订阅的话,这样的服务20美元(订阅费)显然是完全不够的。」一位目前就职于手机厂商,研发LAM端侧应用的工程师对此评价道。
仅仅是全程虚拟机运行以及以及实时显示内容串流的高昂成本,就足以成为此类服务现阶段面向普通消费级市场的最大阻力。
对于以ChatGPT为代表的LLM产品来讲,过去几年已经迅速建立起一套行之有效的订阅系统,用户也在「每个月20美元」的周期往复中,建立起了一个准确的心理预期。
如果LAM未来想要以这种「前端硬件+后端云服务」的方式继续存在,同样也要经历这样一个过程,同时在这个过程中将订阅成本快速拉低,最终将这一商业模式跑通。
随着完全在云端部署的LAM进一步完善,我们大概率会再次看到像Rabbit R1这样、有着更灵活形态的AI硬件设备出现:它可以是智能手表、也可以是AI眼镜,甚至都可能是完全不需要屏幕的智能耳机等设备。
到这个阶段,LAM实际上已经进化成了Agent UI:用户并不再需要传统手机桌面、浏览器那样的用户交互界面,只需要一个供用户输入指令的方式,以及接受LAM最终交付成果的终端。
它或许不如LLM那样科幻,但它却是在现有硬件的基础上,短期内我们能看到最明显、最有能力给用户与硬件的交互,带来改变的方向。
随着Manus AI进一步将LAM以及Agent AI能做到什么,展现给更多普通用户,这或许就是Manus AI在这场浪潮最终退去之后,给我们留下的最重要的收获。
「即便最终赢家不是它,它也足够意义重大。」一位LAM产品经理这样评价Manus AI的行业价值。
相关推荐
狂热过后,我和几位硬件工程师聊了聊Manus 的价值和意义
新一代iPhone很枯燥?我们和几位骨灰级果粉聊了聊
我和百度汽车公司CEO,聊了聊百度汽车未来的样子
资产升级下一步走向哪?我们和几位加密金融资深从业者聊了聊 | FAT论坛
Windows 11操作系统“越位”,我们和开发者聊了聊
跟几位制造业老板吃了顿饭,聊了聊
咖啡连锁如何突围?我们和印尼 Kopi Kenangan 的创始人聊了聊
距离云游戏普及到底还有多远?我们和腾讯聊了聊
华为鸿蒙和安卓有啥区别?我们和鸿蒙开发者聊了聊
工业品销售的发展、变革、关键点,我们和 30 岁、营收过百亿的「鑫方盛」聊了聊
网址: 狂热过后,我和几位硬件工程师聊了聊Manus 的价值和意义 http://m.xishuta.com/newsview133494.html