DeepSeek 今年早些时候凭借其 R1 AI 模型备受广泛关注。据《The Information》报道,R2 模型的工作似乎因 H20 处理器而停滞不前。
DeepSeek尚未透露其R2 模型的具体上市时间。
DeepSeek 使用 5 万块 Hopper GPU(包括 3 万块 H20、1 万块 H800 和 1 万块 H100)组成的庞大集群来训练其 R1 模型。
目前尚不清楚 R2 是否已经完成了全面的预训练工作。
《The Information》报道称,DeepSeek 团队一直在深入研究开发 R2 模型,但 CEO 梁文锋对其性能尚不满意。团队仍在内部努力提升性能。
据《The Information》报道,如果 DeepSeek 即将推出的 R2 模型其性能超过目前市面上的开放替代模型,预计使用量将激增,超出中国云平台的处理能力。
据称,大多数依赖早期R1 模型的组织都使用H20 来运行该模型,而这款处理器已经被美国限制,目前出现了供应短缺的局面。
经@大单网 查询,目前 DeepSeek 相关的招投标项目达 1000 + 个。
发布于:北京
相关推荐
DeepSeek R2 推迟发布:因 H20 算力短缺
DeepSeek R2来了?联合清华大学发布推理时Scaling突破性论文
“DeepSeek R2+昇腾”王炸组合来袭!华为算力独家供应商,坐等起飞!
DeepSeek没能让算力焦虑消失,硅谷四巨头全在加钱买算力
DeepSeek算力需求暴降,为什么全球算力竞赛反而更疯狂了?
微信也接不住DeepSeek的流量?
DeepSeek技术深入千行百业,驱动算力产业加快发展
DeepSeek的545%利润率,是对算力的核弹吗?
DeepSeek推动AI平权,国产算力迎来价值重估
英伟达特供芯片H20订单“疑云”
网址: DeepSeek R2 推迟发布:因 H20 算力短缺 http://m.xishuta.com/newsview138111.html