首页 > 科技快讯 > DeepSeek V3到V3.1，走向国产算力自由

DeepSeek V3到V3.1，走向国产算力自由

晰数塔互联网快讯
2025-08-24 08:36

从V3到V3.1，DeepSeek正在探索出一条“算力自由”之路。

从魔改PTX到使用UE8M0 FP8 Scale的参数精度，DeepSeek先榨取英伟达GPU算力，再适配国产芯片，可能会在软硬件协同方面带来新的突破，进一步提高训练效率，最多可以减少75%的内存使用，从而在实际应用中减少对进口先进GPU芯片的依赖。

DeepSeek正在与下一代国产GPU芯片厂商一起，向算力自主又迈进一步。正是这样一种令人激动的前景，激活了科技色彩愈发浓厚的中国资本市场。

V3.1，迈向Agent时代

DeepSeek发布了V3.1，而不是广受期待的V4或者R2，连R1也消失了。DeepSeek变成了一个混合推理架构，即一个模型同时支持思考模式和非思考模式。这是一个趋势，在V3.1发布一周之前，GPT-5发布了，这是一个”统一的系统”，包括一个对话模型，一个思考模型，和一个实时路由，用来决定如何结合对话与思考。

这次升级提高了DeepSeek的思考效率，即答对同样的问题，可以消耗更少的token，花费更短的时间。这既出于经济上的考虑，也出于产品和用户体验方面的考虑，避免过度思考，让回答更简洁一些。

V3.1展示出更强的Agent能力，通过后训练的优化，新模型在工具使用与智能体任务中的表现有较大提升。

V3.1的基础模型在V3的基础上重新做了外扩训练，增加训练了840 B token。它的上下文长度、思考模式和非思考模式均达到了128k。性能提升，价格下降，再次秀出它所擅长的性价比创新。

这次升级让DeepSeek在最近中国AI企业的开源热潮中夺回领先优势，但不仅仅是想用来做科研和展示，而是要在企业服务能力上向国际前沿AI企业看齐。

DeepSeek的API Beta接口支持了strict模式的Function Calling，以确保输出的Function满足schema定义。这其实是大模型API在工程化能力上的一个重要升级。OpenAI、Anthropic、Mistral等都在逐步推出strict function calling，向企业级生产环境对齐。Strict模式提升了V3.1的工程可靠性和企业易用性，使其更容易在企业服务中替代GPT/Claude。

同样的思路，DeepSeek也增加了对Anthropic API格式的支持，“让大家可以轻松地将DeepSeek-V3.1的能力接入Claude Code框架。”目的是让使用Claude Code的用户更便捷地切换到DeepSeek。这样可以直接渗透Anthropic已经打开的企业市场。最近，Anthropic的企业服务收入已经超过了OpenAI。

这次升级对于DeepSeek具有里程碑式的意义，是其迈向Agent时代的第一步。对中国的AI芯片生态也同样如此。

深度求索的深水炸弹

DeepSeek在中文官微刻意强调，而在其英文X账号上没有提及的是，V3.1使用了UE8M0 FP8 Scale的参数精度。它还在留言处置顶：

这年头，越是低调、话少、让人有点看不懂，信息量越大。

在Hugginface的模型卡中，DeepSeek又放出了一点信息：DeepSeek-V3.1使用UE8M0 FP8缩放数据格式进行训练，以确保与微缩放数据格式兼容。

简单解释下，FP8=8-bit floating point（8位浮点数）是一种超低精度表示方式。可以显著减少显存/带宽需求，大幅提升推理和训练效率，但需要精心设计缩放（scaling）来避免数值不稳定。

UE8M0是FP8的一种数字表示格式。U表示没有符号，E8表示8位指数，M0表示没有尾数。相比之下，英伟达在H100、Blackwell GPU上提供硬件级FP8支持，主推E4M3/E5M2格式，大多数模型采取的是英伟达官方的FP8格式。

所谓“微缩放数据格式”（Microscaling data format），即业界的Microscaling FP8（MXFP8）标准。英伟达Blackwell GPU支持MXFP8。而V3.1训练所用的数值体系与MXFP8兼容，模型在推理/部署时，可以直接在任何支持MXFP8+UE8M0的硬件（包括英伟达Blackwell、未来的国产GPU）上跑，不需要额外转换，这能降低内存流量、提升矩阵乘法吞吐。

对比一下E4M3/E5M2，UE8M0是一个变体，全指数，无尾数，能覆盖极宽的动态范围，是一种低算力环境下的工程优化。单就UE8M0而言，其没有尾数，也没有精度，只用来存scale。高精度在内部计算中的使用过程是这样的：输入FP8，存储时用scale调整，计算时自动转换FP16/BF16/FP32，做乘加运算，输出时再量化回FP8存储，这就保证了训练、推理的稳定性。

V3.1在训练中使用UE8M0 FP8，并且兼容MXFP8，通过软件定义与更多芯片适配，能让超低精度训练/推理在中国自研芯片上更容易实现。

目前和即将采用FP8精度的国产GPU芯片，有寒武纪、沐曦、燧原、昇腾等，还有更多主动适配DeepSeek的芯片厂商。

英伟达的低精度之路

值得一提的是，英伟达多年来一直用低精度数字表示法提升推理和训练效率。例如在所谓的“黄氏定律”中，过去十年里，GPU实现的千倍效能提升，新的数字格式起到了最重要的作用。

英伟达的首席科学家戴利（Bill Dally）曾经把数字表示概括为GPU算力”黄氏定律“的精髓。

在P100之前，英伟达的GPU使用单精度浮点数表示这些权重。根据IEEE 754标准，这些数字长度为32位，其中23是尾数位，8是指数位，还有一位是符号位。

但是，机器学习研究人员很快就发现，在许多计算中，其数字可以不必有那么高的精度，而神经网络仍然可以给出准确的答案。

这样做的明显优势在于，可以更快、更小、更高效地执行机器学习的关键计算（乘法和累加）逻辑。如果需要，就处理更少的位数（如戴利所解释的，乘法所需的能量与位数的平方成正比）。因此，使用FP16，英伟达将该数字减少了一半。

Google甚至推出了自己的版本，名为Bfloat16。（两者的区别在于分数位的相对数量，这影响精度；以及指数位的相对数量，这影响范围。Bfloat16与FP32具有相同数量的范围位，因此更容易在这两种格式之间切换。）

到了H100这一代，其已经可以使用8位数字执行大规模transformer神经网络的某些部分，例如ChatGPT和其他大型语言模型。然而，英伟达发现，这并不是一种适合所有情况的解决方案。

例如，英伟达的Hopper GPU架构实际上使用了两种不同的FP8格式进行计算，一种具有更高的精度，另一种具有更大的范围。英伟达的窍门在于知道何时使用哪种格式。

英伟达对超低精度的一项研究

加州理工教授、英伟达前研究员Anima Anandkumar指出，V3.1在训练中使用的UE8M0 FP8 scale数据格式，实际上是一种对数数值系统（LNS），来自她当年参与的一个研究项目。

英伟达和加州理工的研究人员在2021年时曾经发表过一篇论文《LNS-Madam：在对数数值系统中采用乘法式权重更新的低精度训练》（LNS-Madam:Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update），探讨如何以低精度表示深度神经网络（DNN），实现高效加速，并减少内存占用。

如果直接用低精度权重进行训练，低精度数值系统与学习算法之间的复杂交互会使得精度下降。为了解决这一问题，研究人员设计了对数数值系统（Logarithmic Number System，LNS）和乘法式权重更新算法（Madam）。

他们证明了LNS-Madam在权重更新过程中能保持较低的量化误差，即使在精度受限的情况下也能获得稳定性能。

他们还进一步提出了一种LNS-Madam的硬件设计，解决了实现高效LNS计算数据通路中的实际挑战，这有效降低了LNS-整数转换和部分和累加（partial sum acculmlation）带来的能耗开销。

实验结果表明，在计算机视觉和自然语言等主流任务中，LNS-Madam仅使用8位精度就能实现与全精度相当的准确率。与FP32和FP8相比，LNS-Madam能分别降低超过90%和55%的能耗。

DeepSeek的超低精度创新

UE8M0实际上等价于LNS的一个极简实现，因此，可以说UE8M0是LNS的一种特化（只保留log值的整数部分，没有小数精度），所以Anandkumar教授才会把UE8M0缩放数据格式称作一种LNS。

如果说LNS-Madam是一种学术探索，是重新设计数学体系+算法，是硬件和算法一体化的设计思路，UE8M0+FP8则是一种在现有浮点体系上结合缩放的工程技巧。二者低精度训练的目标一致，但路线完全不同。

UE8M0并不是用来直接存权重，而是用来存缩放因子（scale factor），帮助其他FP8（E4M3/E5M2）稳定表示数据，让FP8能够覆盖更广的数据分布，从而在硬件上更高效。

追求算力自由

回顾一下DeepSeek在两个阶段的突破点。

首先是先榨干现有硬件的潜力。DeepSeek V3直接修改了英伟达GPU的虚拟机指令集架构PTX，绕过英伟达编译器的保守策略，手工调度寄存器、warp、访存和Tensor Core指令。把GPU算力利用率提升到极限，降低硬件受限下的训练/推理成本。在DeepSeek手中，A100/A800等英伟达GPU上的现有算力都得到了最大化利用。

第二阶段是降低算力的物理需求。DeepSeek V3.1引入UE8M0 FP8格式，让中国国产AI芯片（带宽/算力较弱）也能高效运行大模型。采用更紧凑的低精度浮点格式，大幅压缩内存/带宽占用，减少计算负担，可以期待下一代国产GPU芯片能进行前沿大模型训练推理。

DeepSeek在工程实践中走出了一条算力自主之路：先榨取英伟达，再适配国产芯片，最终走向算力自主。长期来看，DeepSeek将沿着软硬件协同优化的路线，构建一个“算力无关”的模型生态。

中国还需要H20/B30吗

由于技术与安全等原因，已经传出英伟达停止生产H20的消息。目前依然存在悬念的，是黄仁勋是否向中国提供B30。

回顾一下，英伟达定制H20/B30给中国市场，因为美国出口管制禁止向中国出售H100/H200/B100/B200等高端GPU。黄仁勋的策略是推出缩水版芯片，为中国定制了H20（基于Hopper）和B30（基于Blackwell），在算力、互联、带宽上降低配置，但仍保持CUDA生态兼容，以保住中国市场，避免中国厂商快速完全转向国产芯片，同时遵守美国出口管制。

即使DeepSeek魔改PTX，一时造成了英伟达股价暴跌，也并没有影响黄仁勋的策略，老黄反而一直想见梁文锋。因为他在心里明白，也公开表达过，以中国的人才储备，尤其是软件人才储备，实现AI芯片与模型生态的自主闭环只是时间问题。

没想到的是，UE8M0+超低精度的冲击会以如此低调的方式释放。它意味着中国厂商对于H20/B30的需求，正在发生微妙的变化。如果国产下一代GPU芯片近期推出，而且支持UE8M0+FP8跑通大模型，英伟达的缩水卡在中国市场上的竞争力下降。一旦国产芯片生态完善，CUDA生态的锁定效应会逐渐削弱。

中国市场还需不需要B30？有一种业内观点认为，短期依然需要，因为国产GPU的产能、软件生态还在追赶。大部分企业，尤其是互联网大厂和科研机构等，仍依赖CUDA工具链和现成框架。H20/B30在推理与训练上仍然比国产芯片更稳健。也许B30本身的相对先进性，即弱于最先进的GPU、但仍强于国产GPU，才能决定它能否得到中美两国有关部门的接受。

随着国产芯片+超低精度训练将逐渐跑通并规模化部署，中长期来看对于B30们的需求会明显下降。国产AI软件栈（昇腾CANN、寒武纪Neuware、壁仞BIRENSUPA）逐步成熟，逐渐减少对CUDA的依赖。成本敏感的中国企业会更倾向国产方案，同时避免美国找麻烦。

英伟达的优势何在

UE8M0+FP8，好像是DeepSeek接过了英伟达近十年来的低精度数字表示技术的大旗，结合中国的实际进行工程创新，它将加快中国下一代芯片的推出，加快以国产芯片解决中国大规模训练和推理的需求，从而形成中国AI芯片与模型的技术路线。

使用UE8M0 FP8 Scale的参数精度，适配国产下一代芯片，兼容MXFP8，并不意味着英伟达失去了优势主导地位，因为G200不只是FP8，还带来了更大带宽、更强互联（NVLink 5）、更大显存。软件生态（CUDA、PyTorch插件）也牢牢绑定FP8，迁移到UE8M0需要额外工程适配。

大部分国际大厂（OpenAI、Anthropic、Meta）还是会首选G200来追求极致性能。“黄氏定律”已经推进至FP4精度，英伟达还曾亲自下场发布了优化版的DeepSeek-R1-FP4，内存需求大幅降低，基准测试成绩几乎不变。

如果UE8M0+FP8在社区和国产硬件上普及，低成本训练路径会弱化英伟达的必选性。这对中国厂商尤其重要，即使没有G200，也能在国产GPU上稳定训练大模型，形成去英伟达化的路线。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究