首页 > 科技快讯 > DeepSeek开源周观察：让所有人都能用起来R1

DeepSeek开源周观察：让所有人都能用起来R1

晰数塔互联网快讯
2025-02-24 20:07

本文来自微信公众号：共识粉碎机（ID：botaijin），作者：Andy Liu

毫无疑问，DeepSeek已经是全球开源圈毫无疑问的一哥了。今天，DeepSeek在“开源周”活动中首发了FlashMLA，这是一个专门针对英伟达Hopper GPU（如H800）优化的高效多头潜在注意力（MLA）解码内核。

简单来说，FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题，针对MLA架构，通过深度优化Kernel，提升内存带宽利用率和计算效率。这个工作，和之前的Native Sparse Attention是类似的优化思路：

在H800 SXM5 GPU上，FlashMLA达到了3000 GB/s的内存带宽和580 TFLOPS的计算性能，大幅提升了大模型推理速度。

该内核支持BF16混合精度运算，并采用了块大小为64的分页KV缓存技术，有效减少冗余计算和显存浪费。

FlashMLA的设计受到了FlashAttention 2&3以及CUTLASS项目的启发，结合了先进的注意力机制优化策略（还是在Nvidia GPU的生态上）。

只需简单执行python setup.py install即可安装，并已开源在GitHub上，迅速获得大量关注和星标。

目前看起来，DeepSeek真的是为了人类社会早日通过开源模型实现AGI操碎了心：开源了模型，发论文解释了技术，还担心你没办法做到16人民币/百万Token的成本，于是打算通过这一整个开源周，把自己是怎么优化infra核心技术都开源。看起来，DeepSeek还是希望把自己的计算资源都投入到AGI的研发中。通过R1模型做产品和应用，看起来是希望交给开源社区和下游应用了。

DeepSeek这个开源周，从“Open”的角度，看起来会吊打CloseAI的12天发布。毫无疑问，这也将进一步强化我们长期的判断：DeepSeek R1开源会极大的利好下游应用，现在不光白送一个o1级别的模型，而且贴心地帮你把成本也优化了。

对于算力，FlashMLA是完全基于Nvidia GPU做的优化，对于NV的GPU是开箱即用的（当然，从BF16到FP8还需要自己手动优化，但是肯定比从0开始写FP8要容易），短期肯定会进一步利好DeepSeek模型在Nvidia的部署和落地，增加对Nvidia的需求。

期待接下来4天，DeepSeek每天给我们带来惊喜！

本文来自微信公众号：共识粉碎机（ID：botaijin），作者：Andy Liu