首页 > 科技快讯 > OpenAI发布GPT-4o，“秀肌肉”给谁看？

OpenAI发布GPT-4o，“秀肌肉”给谁看？

晰数塔互联网快讯
2024-05-14 17:35

GPT-4o的小美女CTO穆拉蒂，先是宣布推出的GPT-4o的大模型，然后带着两个小哥，用一个插着线缆的手机和一台电脑，演示了ChatGPT的多模态功能，前后仅仅26分钟，把无数那些辛苦了一年、刚刚宣布赶上了GPT-4（Turbo）的公司，又都整不会了。

人与机器的交流，可以更像人与人之间的交流那么自然了。语言交流中可以随时插话，可以实时翻译，可以改变语调，可以表达情绪，可以察言观色，可以观察场景，所有这些，就像人与人面对面交流一样。

此外，还有实时翻译，它还帮你看代码，教你学外语，给你讲故事......它不正是每个人所需要的助理吗？

甚至机器与机器之间也可以互相交流，一部手机向另外一部手机描述它观察到的人物与环境，还有发生的事情。

这一切不是科幻小说，而是科幻电影中的机器人Her和Jarvis正在变成现实。

GPT-4o的这些魔法，准确描述应该是实时跨音频、视觉和文本的推理（reason across audio， vision， and text in real time）。输入文本、声音和视觉的组合，输出也是它们的组合，而且这个端到端的过程，由同一个神经网络训练处理。

OpenAI一如既往地没有公布技术细节，它只是承认，这是其首个把多种模态的模型整合到一起的模型，还存在着不少局限性和麻烦事。它并没有立即推出语音功能。实际上，OpenAI曾经于3月底时非常低调地发布了强大的语音模拟和生成技术：Voice Engine。直到今天，它都只是请用户预听，而不敢发布，毕竟太容易用来造假了。

这次OpenAI同样非常谨慎。在惊艳的演示之后，它称这次只推出文本与图像功能，而不会推出语音功能。之后几周只让“值得信任的”少数人试用。之前很多公司推出的产品演示存在猫腻，这次OpenAI的小哥一坐下，就拿起手机上的线缆，解释这是为了更稳定的网络连接（consistent internet）。

这更像是OpenAI借演示多模态功能而精心策划的一场营销活动。它想传递三个重要信息：多模态，更有效率的推理，与苹果的合作。

其实，后两个信息，实际意义更加重要。

OpenAI宣布，它除了是一家研究公司之外，开始把重心放到大模型的实际用途。OpenAI过去的一年用户数量停滞不前，ChatGPT体验没有明显改善，导致其用户留存率不高。最重要的原因是推理的成本太高，速度太慢。

这次OpenAI说，过去的两年，倾注了很多努力，提升大模型的效率。这体现在GPT-4o的推理能力有明显的提升，速度快了，价格也下降了。它比GPT-4快4倍，便宜两倍——这是对英语，而其他50种语言，由于分词器（tokenizer）技术的改进，速度加上价格最高可能提升9倍。

与苹果公司的合作，也是一个重要考虑，甚至可能是最重要的考虑。苹果与OpenAI的合作，谈判已经进入最后阶段，苹果即将于6月初举办的WWDC大会上宣布其AI战略，用户最关心之一是Siri是不是会变得更加聪明。如果像GPT-4o这样，它就真的像个助理了。

OpenAI即将揭开其在端侧设备的部署，它首选了PC。这次展示了ChatGPT集成到macOS上，它可以实时共享PC屏幕，可以把正在进行的工作流，拿到ChatGPT那里处理，有了GPT-4o的加持。以后码农可以动动嘴就可以听到对代码的解析了。

苹果+OpenAI，对于微软Copilot和谷歌向设备端的部署，造成了极大的压力。苹果在芯片、操作系统和设备一体化集成OpenAI的技术，可能会创造出真正的AI用户体验。这可能是一个比微软Copilot更好的体验，macOS和Windows是一对冤家，可能要争着尝鲜新出炉的GPT-4o了。

从这一点来说，OpenAI与苹果的合作，将会极大加快大模型向个人设备的部署，也成为今年大模型最大的应用场景。

OpenAI只是先推出了文本与图片功能，除了担心语音功能可能并不完善，也动了点心思，想看下谷歌I/O的演示之后再说。

OpenAI选择发布的时机非常讲究。预计与谷歌发布的是几乎同一种产品，OpenAI抢的时间点，正是谷歌I/O大会前一天。它首先要看谷歌明天放出来的产品是什么样子的，然后决定后面GPT-4o产品功能释放的节奏。

谷歌较早就发布了关于统一多模态的模型框架，还最先推出了真正的多模态大模型Gemini。谷歌搜索和地图，识别和感知的场景数据，应该比OpenAI的更加丰富。而且谷歌已经推出了视觉搜索产品，如与三星手机合作推出的Circle and Search。