首页 > 科技快讯 > 对话MiniMax创始人：如何打造AI时代最大的APP

对话MiniMax创始人：如何打造AI时代最大的APP

晰数塔互联网快讯
2024-07-14 18:36

只有技术好是没用的。一年后，失去“AI滤镜”，商业化进展至关重要。

文｜《中国企业家》记者孔月昕

编辑｜马吉英

图片来源｜受访者

在2024世界人工智能大会（WAIC）的MiniMax展位上，呈现出戏剧性一幕：当有记者提到一位员工的真实名字时，公司同事很难跟该员工本人对应起来。

这与MiniMax的管理方式有关。在公司内部，同事彼此之间只称呼花名，很多人的微信昵称也是自己的花名。对于创始人闫俊杰，员工也都称呼他为IO（花名）。

在员工眼中，闫俊杰是一位很有亲和力的管理者，他说话声音很轻，总是面带笑容。在展位跟媒体交流时，他一直保持着倾听的姿态，说话不疾不徐。

作为一位低调的技术型创业者，闫俊杰曾担任过商汤副总裁、研究院副院长和智慧城市事业群CTO。2021年12月，在商汤上市前夕，闫俊杰离开商汤，创立了MiniMax。

MiniMax早期投资人、明势资本创始合伙人黄明明认为，从创业时间点的选择来看，闫俊杰是真的对AGI有信仰。

目前，MiniMax已完成A+轮融资，最新一轮融资由阿里领投，金额为6亿美元，公司估值突破25亿美元，其投资方还有腾讯、红杉中国、高瓴、IDG、米哈游等。

从创业第一天开始，闫俊杰就坚持模型、产品两条腿走路。在他看来，一切都以技术为先，只有大模型底座搭建好了，才能“长”出更有价值的应用。

因此，在2023年6月，大部分国内公司还在迭代稠密模型（dense model）、MoE（混合专家系统）模型尚未成为行业共识时，MiniMax就花了80%以上的精力下注MoE。

虽然过程历经坎坷，但闫俊杰最后还是“赌”对了。

2024年1月，MiniMax发布了国内首个基于MoE架构的千亿参数量级模型——abab 6；4月底，又迅速迭代并推出abab 6.5系列模型。在各类核心能力测试中，abab 6.5也接近了GPT-4、Claude-3、Gemini-1.5等世界领先的大语言模型。

探索MoE的好处不限于此。在闫俊杰看来，这次磨砺让他们不会被局限在只做公开的东西，也敢去做上限更高、要靠自己探索（的东西）。

不过，闫俊杰也认为，只有技术好是没用的，一年之后，一旦失去“AI滤镜”，大家会从商业化的角度来评价公司。“我觉得短期内最重要的是AI技术的进步。一年之后，商业化一定是非常重要的。”

在2024世界人工智能大会上，闫俊杰接受了《中国企业家》等媒体采访。

以下为采访整理，有删减：

拼价格不是坏事，可以倒逼技术创新

问：你对WAIC的第一印象是什么？

闫俊杰：大会的主题是跟安全治理相关，（提出这些问题）还是挺及时的，如AI安全、治理、版权等问题。假设我用了你们的新闻来训练，这算不算侵权？我觉得这些都是挺迫切的（问题）。

我们过去一年确实开始遇到这样的问题了。面对这种问题，也没法靠一个企业来解决。比如用一篇文章来训练到底有没有侵权？如果侵权了，是侵了平台的权利，还是文章作者的权利？

问：现在已经开始思考这些问题了吗？

闫俊杰：不是思考，其实是遇到了。比如在海外，有好几家公司起诉OpenAI了。在中国，我们也开始遇到类似的挑战了。

比如训练数据。你的模型有没有用到公开数据？如果迅速出来了，你的模型获益了，要不要给提供数据的人付钱呢？

此外还有监管的问题。比如，模型输出的内容有没有突破一些红线？该怎么来算？

再比如用到一个语料要付钱，但如果用这个语料训练模型说错了话，提供语料的人是不是要赔钱？有很多这样的问题。

坦白说，这种问题不是仅靠一家企业能解决的。首先，肯定得需要政府来组织，并且它有时候涉及的不止一个国家，海外可能也会有用户，也会有相应的数据。其次，即使只在中国，我觉得目前技术往前走了一步，但各种各样的法律法规还需要跟上。

问：有从业者觉得国内有点太卷了，国外可能没那么卷，你看到的情况是这样的吗？

闫俊杰：我觉得海外也很卷了，竞争都很激烈。我觉得核心是中国跟美国的基本面不太一样，比如美国最好的模型显然比国内最好的模型要强，这是事实；海外公司本来的品牌也比中国公司的品牌要好，至少对海外来说是的。

但是它也有缺点，就是没有工程师红利。比如说同样价值30亿美元的公司，在中国公司的工程师肯定比在硅谷多很多，虽然最顶尖的可能有差距，但是平均水平其实是更强的。

如果是平均水平乘以工程师的数量，那么相同水平或相同估值的中国公司，工程师一定更多。

问：主要是人才吗？

闫俊杰：对。我自己觉得中国确实还是有工程师红利的，这是一个客观事实，可能都不是30%或者50%的差距，而是3~5倍的差距。

第二，移动互联网时代的中国公司有很多优秀的产品、商业，这东西其实也很强。所以我觉得在海外，我们虽然没有品牌优势，一开始也没有技术优势，但是可以有工程师红利，有其他很多积累，其实就是“田忌赛马”。

问：你如何看待行业里头部效应越来越明显的趋势？

闫俊杰：其实中国还没有美国明显，你看美国的那几家创业公司，Adept、Inflection都没有了，Character AI可能马上也没有了。

问：你对Character AI这件事情怎么看？他们跟你们的产品有点像。

闫俊杰：今年你看他们很多功能在参考我们的功能，我觉得这就是工程师红利，商业化一定是个很重要的事。

问：后续它们会不断被大厂收购吗？因为它们自己难以维持。

闫俊杰：我觉得它们（美国创业公司）被大厂收购了也无所谓，也正常，他们并不觉得失败。

问：MiniMax也是创业公司，会不会也有这样的担忧？

闫俊杰：我觉得核心还是独立发展。因为一家公司不管是自己独立做还是怎么样，核心还是看你给用户创造多大价值，这才是最本质的。不管怎么样，本质上都是看你的技术有多好。技术能做得好，能够把用户服务得好，这才是最本质的。

问：相比国外，在国内有哪些挑战是需要你们解决的？

闫俊杰：坦白说，我觉得国内大部分公司还没有形成差异化，模型水平、产品都差不多，所以就会变成拼价格。但我觉得这不是坏事，这其实是逼着大家能够更好地做技术创新。

问：MiniMax主要的差异化是什么？

闫俊杰：我觉得这个不是说就要跟别人有什么不一样。根源上还是想要有什么东西或有什么问题，然后再往这个比较大的问题上努力，这个过程中自然就会有不一样。

问：你们大的问题是什么？

闫俊杰：我觉得我们还是很明显的，就是渗透更多的用户。在这一过程中，就需要我们的技术变得很强。

技术为先，killer APP三年才会出现

问：MiniMax主要的模式是to C？C和B的体量完全不一样。

闫俊杰：我们现在的C的体量也比别人要大挺多的。

问：部分友商可能明确to B会占80%，to C会占20%，你们有这种比例的定位吗？

闫俊杰：我们没有这个定位。我们只有一个点，就是用户渗透率是多少。再简单一点就是我们的模型被使用次数。

问：效率类和娱乐类两个产品你都做，这两个产品你觉得哪个能更快地跑出来？

闫俊杰：现在技术其实也在不停进步，比如一年之后的技术大概率不是现在的技术，产品的体验又大部分来自模型的能力。所以基于假设的话，我觉得大概率明年最大的产品可能都不是现在的。

问：但是你们星野现在的确跑得挺快了。

闫俊杰：我觉得在今年最大DAU的产品，到年底的时候在中国可能是1000万DAU，今年我们的目标就是什么产品能到1000万DAU。但是明年可会有1亿DAU的产品，它可能不是现有的产品，可能是另外一个形态。

问：你现有的产品明年不会变成1亿DAU吗？

闫俊杰：我觉得我们现在的产品应该是能看到千万DAU，但还看不到亿级（DAU）。

问：你觉得现在还看不到killer APP（杀手级应用）吗？

闫俊杰：举个例子，现在抖音大概6亿DAU，今日头条是1亿DAU，今日头条算不算killer APP？

但在今日头条之前，当时最大的是内涵段子，可能有2000万DAU，那算不算呢？

如果变成在这个时代里面最大的APP，或者在AI时代最大的APP，我觉得我还是挺有机会的。但是现在这个APP肯定还没那么大，我觉得可能要三年之后才会大众化。但是没关系，当你能做到第一个，你的能力变强了、资源变多了、技术能力变好了，大概就可以做出来。

这个东西就一步步来，我不认为我现在做的可能就是三年之后的APP。

问：做完MoE之后，下一步你觉得应该是哪个方向？

闫俊杰：我们还是做了很多技术创新的，不光是MoE。比如一些transformer的改进，就是怎么样能让它支持无限的上下文；我们的合成数据也做了很多改进。我觉得MoE给我们的收获，不光是MoE本身，对我们来说最大的价值是说当有个方向它能提升几倍，但是它没有开源，也没有公开的东西，我要把一个几倍的东西靠自主能力做出来，这个过程中的收获是比较大的。

当我们把这个事做完之后，现在有一些更新的技术，比如怎么样做支持无限长图上下文的transformer，怎么样来做合成数据，怎么样用更低精度的方式来训练模型，这种东西我们都敢做了。

相当于我们就不会被局限在只做公开的东西，我们敢去做上限更高、要靠自己探索（的东西）。

问：MiniMax还会做新的产品吗？

闫俊杰：之前不敢做，但是做MoE之后我们就敢做。我觉得经历MoE之后，我们基本上就比较敢来做很大的（创新）。

视频可能下个月会出来，在星野和海螺AI里面也可能会有应用场景。

问：您这边有跟Sora做过对比吗？

闫俊杰：有。

问：Sora一直没有公开，你们是怎么去做对比的？

闫俊杰：我们做模型不是算法来评测，我们公司里面有一些很专业的视频创作者和音乐创作者，比如做音乐模型的运营是一个非常专业的音乐创作者，评估视频模型的是一个非常专业的视频创作者。举个例子，比如说生成40首歌让他盲听，看他觉得哪个好哪个不好。当他也区分不出来真实音乐和AI生成音乐的时候，它的能力就够强了。

问：MiniMax有文生文、文生语音，马上有文生音乐，这三个方向哪个能最快冲到全国第一？

闫俊杰：现在我们的文生语音就是行业最好的，但这个东西我觉得没那么关键，文本模型才是最关键的，相当于文本模型能提升10个点，其他模块自然也能提升。语言模型还是最本质的，其他东西其实都是自然的衍生。

问：下个月文生音乐/视频一起推，是这个意思吗？

闫俊杰：更主要的还是我们文本模型变得更强，我们只是顺带做出来音乐、视频这些东西。

问：OpenAI好像有专门的一个团队在做视频。

闫俊杰：这个东西在OpenAI也是一样的。OpenAI做GPT的团队可能是几百个人，可能有几万张卡；但做视频的就只有十几个人，可能就1000张卡。它其实就是很小的，只是放在中国，大家觉得这个东西很多，其实不是的。

问：在短期内，你最明确的一个或两个目标是什么？

闫俊杰：首先是错误率，我们的错误率还有继续降低的空间。包括GPT-3，为什么用户没那么多？原因就是错误率太高了。

问：现在GPT-5放出来的标准是什么？

闫俊杰：我觉得一个标准就是错误率能变得比较低，比如错误率变成3%。

问：你在商业化方面的第一个目标是什么？

闫俊杰：用户规模。