首页 > 科技快讯 > 端侧大模型，手机厂商的下一次入口级机会

端侧大模型，手机厂商的下一次入口级机会

晰数塔互联网快讯
2023-11-27 20:57

过去几个月，海内外的手机厂商纷纷入局，手机端大模型突然火了。

八月华为第一个宣布将大模型接入手机助手，小米、OV 紧随其后。就连一向“慢半拍”的苹果和三星，一个悄悄招人；一个则宣布会将大模型带到最新的 Galaxy 旗舰机型。

上游的芯片厂和下游的应用开发者也在行动。过去两个月里，高通和联发科，相继发布了能够支持在手机端运行百亿参数大模型的新一代手机芯片；Sam Altman 投资的 Humane，则在 11 月推出了 AI Pin，希望构建面向未来的操作系统。

大模型技术已经进入大众视野一年了。在手机上使用基于大模型开发的应用——比如 ChatGPT、妙鸭相机等，对于大模型的第一批尝鲜者来说，已经算不上新鲜。

看起来，用户并不会在意手机上的大模型，到底是在云端还是本地运行。手机和芯片厂商花这么大的力气推动大模型上手机，到底图的又是什么？

一、新的入口

手机厂商入局大模型的第一个目标，当然还是手机助手。

在大模型到来之前，手机助手受制于技术限制，智能能力不足，只有在特定提前写好指令的任务上表现较好。而大模型的自然语言能力，让手机助手的人机交互能力提升了一大截，大大提升了手机助手深度操控手机的能力。

“手机智能助手已经有好多年了，但是之前真的没人用。”OPPO 高级副总裁刘作虎曾谈到，“而大模型到来之后，未来手机一定是我们的超级助理，大模型可以带来影像、操作、文生图等多种体验的提升，这在未来是确定性的。”

在 OpenAI 的近期的发布会中，曾经做了一项通过 Zapier 链接云端数据，调用用户的数据，为用户提供更加个性化服务的展示，而在手机端通过手机助手运行大模型的方式调取这些数据，甚至可能比云端更加直接。

“手机端有大量的短信记录、个人照片、备忘录、日程等，将这些数据变成向量数据库，配合大模型的自然语言能力，就能进行更好的交互。”一位接近行业的人士告诉极客公园，“比如把用户的日程做成了一个数据库，离线保存在用户本地。当用户提问相关问题时，进行一个向量检索算法，就可以利用大模型的能力做出更智能的回答。全部数据还都不会离开手机，保证隐私不会被泄露。”

在近期的发布中，手机公司都强调了这方面的能力。

VIVO 的蓝心小 V，提到手机上万张的图片管理中，用户可以尝试直接以语义识别的方式说出照片的内容理解，让小 V 在相册中主动识别有对应内容的照片。

OPPO 的小布助手中，演示了小布助手帮用户接听电话并进行智能摘要的功能，当用户不方便接听电话时，小布助手可以直接帮用户接听电话，并将关键信息记录下来。

而最早将大模型接入手机的华为小艺，还曾经提到过，小艺可以通过自然语言交流，直接帮用户创建一个场景。比如“每周一到周五早上 6 点半播报当天天气。戴上蓝牙耳机的时候，就播放收藏的歌曲，并把手机设为静音模式”。

这样深度操纵手机的内容的能力，需要需要公司内部对手机系统的各项功能进行重新梳理，将其做成标准化的接口提供给大模型进行操纵，显然能够大大提升手机的使用体验。

另一位行业人士告诉极客公园，手机厂商在手机助手中部署大语言模型，背后的野心或许还不止于此。“原本所有的价值链都在应用内闭环。如果手机厂商有一个人工智能助手，理解用户需求，控制和调用别的应用，那么除了用户的体验会变，手机厂商和第三方应用的关系会发生彻底的变化。”

在目前，这样的应用控制已经在手机助手中初露端倪，尤其是在华为打造的鸿蒙系统中。在华为的展示中，用户已经可以直接和小艺同学用自然语言交互，沟通自己的需求，而华为再通过元服务拉起相关的 app，满足用户需求。

“如果用户接受了这套使用和交互逻辑，未来每个应用甚至都不用做太多自己的界面了，把自己的服务核心标准化后，跟用户交互的入口直接在被大模型驱动的手机助手中。”这位接近行业的人士表示。“甚至随着大模型控制 GUI 进展，比如微软使用 GPT-4 Vision 控制 iOS 这样的试验进一步发展，系统可以直接模拟用户点击，控制 app。掌握智能入口的一方，能够真正成为应用的入口。”

端侧大模型，正是手机厂商实现这一野心的最佳工具。

首先，手机厂商通常不提供云服务，无法获取廉价的云服务。而承接上亿用户的需求，背后需要大量的大模型算力支持。端侧大模型，能够让手机厂商节省掉这一部分的开支，使商业计划更加成立。

其次，手机厂商在利用端侧 AI 中有很强的优势。目前，无论是华为、小米还是 VIVO，采用的都是自研的大模型，可以在出厂前就与手机和芯片公司在底层上进行多次调整，与硬件达到最大限度的适配。在目前端侧大模型十分依赖于内存的前提下，手机厂商也可以通过把内存优先供给于自己的终端大模型，来保证终端大模型的运行。

另外。因为运行在终端，大模型的延时和依赖于网络状态的不确定性也能大大降低，能更好地完成“助手”的服务。

“我们在网络上看到的机器同声传译，很多时候，机器还不能做到同声，会一直在翻译他前面的话。而用端侧来做的话，同声传译没有延时。”小米 AI 实验室主任王斌博士向极客公园表示。

二、大模型上手机，还需要解决这些难点

华为、小米、VIVO 等许多公司目前都宣布了自己的手机助手已经具有了大模型能力，甚至已经开启了内测。不过目前，手机助手中的大模型能力，并不完全来自于边缘端推理，而是通常是端云结合的方式。

而在完全将大模型能力转移到端侧之前，入口级机遇，目前还很难实现。云端大模型的调用成本，会从根本上限制其盈利能力。Humane 推出 AI Pin，每月还需要交 24 美元的额外订阅费，其中很大的原因，也是为了打平云端 AI 的调用成本。

但要想让大模型上手机，目前还存在一些技术和产业的难点。

在大模型出现之前，手机作为一个边缘计算设备，已经可以运行许多 AI 相关的算法，尤其是运行视觉算法对图像进行处理，达到暗光拍摄、降噪、人脸解锁等功能。

比如著名的华为 P30 Pro 手机拍摄月亮事件中，手机端就是通过 AI 算法，为拍摄的月亮生成更多细节，使照片呈现出单靠手机摄像头无法呈现出的月球细节。

运行端侧大模型的推理，与过去手机的 AI 算法，最主要的区别在于，大模型更“大”。

即使是小的大模型，参数通常也需要达到十亿级，而普遍认为参数量达到 30 亿之后，大模型的思维链能力将上一个台阶——这和手机原本运行的参数量大概相差一到两个量级。

具体而言，大语言模型在端侧运行，主要对运行内存产生了挑战。

基于 Transformer 的架构的大模型，底层特点就是推理时，随着对话变长，计算复杂度会增高，而计算成本会提高，推理速度下降，而内存的占用也变高了。

服务器中使用服务器级别的芯片，比如 A100 有 80G 显存。即使用小规模的显卡，V100，也有 32G 的显存，可以防止模型跑的时候运行内存不够。而手机芯片显然远远达不到这样的水平。

因此，目前的一个主流的做法是对模型进行量化。

在大模型内部，权重原本由浮点数存储。例如，fp16 的模型，指的就是采用 2 字节 (16 bit) 进行编码储存训练的模型，而 fp32 的模型，是采用 4 字节（32 bit）的编码进行了储存训练的模型。

简单说，将浮点数改为占用内存更低的整数储存，就是量化。如果该量化从 32 bit 的储存降低到 8 bit 的储存，则整个大模型的内存占用可以降低 4 倍，而如果能够再降低到 4 bit 的储存，则会再降低两倍。

不过，可以想见，进行量化之后，大模型的精度和能力同时也会下降。

接近行业的人士告诉极客公园，一个六七十亿参数的模型，如果进行量化，大概占 2G-4G 运行内存不等，手机内可以运行。安卓的旗舰机，通常运行内存都能达到 16G 左右。

这也是高通等芯片公司努力研究的方向。“借助量化感知训练和/或更加深入的量化研究，许多生成式 AI 模型可以量化至 INT4 模型。基于 transformer 的大语言模型，在量化到 8 位或 4 位权重后往往能够获得大幅提升的效率优势。”高通 AI 产品技术中国区负责人万卫星表示，“使用低位数整型精度对高能效推理至关重要。”

在模型层面，RWKV 团队，也提出了一种另外的解决方式。RWKV 的大模型，不只基于 Transformer 架构，而是基于 RNN、CNN 架构对大模型进行了底层的改进，降低了模型的推理成本。

“不完全沿用 Transformer 架构的 RWKV，在用户对话后，每次会储存一个对话状态，生成时通过这个状态进行推理。这个状态只会变化，而不会变大。因此即使对话状态变长，或多个 agents 同时调用，RWKV 推理也不需要占用更多算力。性能不降，耗电也更友好。”RWKV CTO 刘潇告诉极客公园。

RWKV 认为，这样的大模型，有机会能在硬件能力更低的设备上运行。

极客公园近期得知，模型开发者 RWKV，目前已经推出了一款完全利用端侧的 AI 聊天应用，可以在 GitHub 上下载，运行的是 RWKV 的 1.5B 的模型。

模型本身是一个不需要量化的无损失 fp16 版本。而这样模型，对手机的要求却并不高，手机内存只需要 6G 就可以，这远远低于目前安卓的旗舰机配置，RWKV 表示千元机就足以运行。

RWKV 目前拥有两个端侧可运行的模型，分别是 1.5b 和 3b，正在训练 7b 的模型。开发者使用这样的模型，可以构建对话应用，也可以调用 function，使用音乐模型可以构建音乐相关的应用，性能指标和效率指标在 RWKV 的测试中都处于领先位置。