首页 > 科技快讯 > 阿里云发布了第二款140亿参数开源模型，免费可商用 | 最前线

阿里云发布了第二款140亿参数开源模型，免费可商用 | 最前线

晰数塔互联网快讯
2023-09-26 18:05

作者 | 邓咏仪

编辑 | 苏建勋

国内大模型如今步入落地阶段，另一方面，开源生态也初见雏形。

9月25日，阿里云开源了第二款大模型——通义千问140亿参数模型Qwen-14B，及其对话模型Qwen-14B-Chat，本次开放的模型免费可商用。

阿里曾于今年8月推出70亿参数的模型Qwen-7B等，一个多月下载量突破100万。如今的Qwen-14B，是阿里云开源的第二款模型。

来源：阿里云

Qwen-14B比起此前的7B模型，参数规模更大，并且模型性能也有不少提升。Qwen-14B是一款支持多语言的高性能开源模型，整体训练数据超过3万亿Token——作为对比，全球当前的开源模型霸主Llama2，预训练数据在2万亿Token左右。

并且，Qwen-14B最大支持8k上下文窗口长度，这意味着模型会具备更强大的推理、认知、规划和记忆能力。8k也已经是如今头部大模型的配置——以GPT-4为例，8K的上下文窗口约等于可以处理6000个英文单词。

阿里云表示，Qwen-14B在多个权威评测中超越同等规模模型，部分指标甚至接近Llama2-70B。

而另一个开源的Qwen-14B-Chat，是在基座模型上经过监督微调所得到的对话模型。阿里云表示，借助基座模型的性能，Qwen-14B-Chat生成内容的准确度大幅提升，也更符合人类偏好，内容创作上的想象力和丰富度也有显著扩展。

对开发者而言，Qwen-14B-Chat能支撑更多应用场景，比如Agent（智能体）。开发者也可用简单的指令教会Qwen使用复杂工具，比如使用Code Interpreter工具来执行Python代码，以进行复杂的数学计算、数据分析、图表绘制等。此外，开发者还能开发具有多文档问答、长文写作等能力的“高级数字助理”。

如果以模型尺寸来看，数亿道数十亿级别的模型，可以作为一个模型的能力验证，而百亿级以上的模型，通常说明其性能能进入B端企业进行生产应用。

阿里云也发布了Qwen-14B在不少测试集上的测评结果。在MMLU、C-Eval、GSM8K、MATH、GaoKao-Bench等12个权威测评中，Qwen-14B都取得最优成绩，超越所有测评中的SOTA（State-Of-The-Art）大模型，甚至超越Llama-2-13B（130亿参数）模型。