3月1日消息,AI公司DeepSeek为期五天的 “代码开源周” 告一段落。本周一至周五,DeepSeek以每日不定时一更的频率,开源多个代码库,涵盖FlashMLA、DeepEP通信库、DeepGEMM、并行优化策略、并行文件系统3FS。
2月24日:Flash MLA开源
DeepSeek开源周的第一个项目FlashMLA,可以理解为专门为高性能显卡(Hopper GPU)设计的“AI加速工具”。它的核心功能是让AI模型(比如聊天机器人、文本生成工具)在处理长度不固定的数据时更高效。例如,当AI同时处理长句子和短句子时,FlashMLA能动态调整资源分配,避免浪费算力。
目前实测显示,它在处理速度和计算效率上接近H800显卡的理论极限(内存速度达每秒3000GB,算力达580万亿次/秒)。这意味着未来AI应用(如实时翻译、内容生成)可能更快、更省成本。开发者现已可免费使用这一代码优化自己的AI项目。
(详情:https://baijiahao.baidu.com/s?id=1824926610443831221&wfr=spider&for=pc)
2月25日:DeepEP通信库开源
2月25日,开源放福利的DeepSeek甩出了一张王炸——开源全球首个面向MoE模型的全栈通信库DeepEP。因为直接解决了AI算力焦虑,GitHub瞬间飙出1500星(指收藏量),圈内集体炸锅,其重要性可见一斑。
DeepSeek开源全栈通信库DeepEP,优化GPU间信息传输,解决AI算力焦虑。特点包括NVLink优化、RDMA低延迟内核、AI智能分拣和FP8压缩技术,实测提升速度降低延迟,实现“无感传输”,降低大模型训练成本。
(详情:https://baijiahao.baidu.com/s?id=1825026931694522000)
2月26日:DeepGEMM代码库开源
开源周进行到第三天,DeepSeek 不仅带来了技术,还传出 R2 正在路上的好消息。作为用户,一边见识着 DeepSeek 抛出来的一个个技术库,还能看到应用了这些技术的模型,怎么不算一种见证巨星的诞生。
今天出场的是 DeepGEMM,是一个专为干净、高效的 FP8 通用矩阵乘法 (GEMM) 而设计的库,具有细粒度缩放功能,如DeepSeek-V3中所述。它支持普通和混合专家 (MoE) 分组 GEMM。该库用 CUDA 编写,在安装过程中无需编译,而是使用轻量级即时 (JIT) 模块在运行时编译所有内核。
(详情:https://baijiahao.baidu.com/s?id=1825087104970516063&wfr=spider&for=pc)
2月27日:并行优化策略开源
DeepSeek 开源周第四弹来袭,豪气一举开源三个代码库。
DualPipe:一种双向流水线并行算法,用于 V3/R1 训练中的计算 - 通信重叠;EPLB:用于 V3/R1 的专家并行负载均衡器;profile-data:训练和推理框架的分析数据。
(详情:https://baijiahao.baidu.com/s?id=1825207522595783106&wfr=spider&for=pc)
2月28日:3FS文件系统开源
DeepSeek“开源周”第五天,今天开源的是一款为所有DeepSeek数据访问提供动力的推进器,名为3FS。
Fire-Flyer文件系统(3FS)——一个并行文件系统,充分利用现代SSD和RDMA网络的带宽。180节点集群中,聚合读取吞吐量达6.6 TiB/s;25节点集群中,GraySort基准测试吞吐量达3.66 TiB/min。
单客户端节点的KVCache查找峰值吞吐量超过40 GiB/s;采用强一致性语义的分离式架构;支持V3/R1中的训练数据预处理、数据集加载、检查点保存/重载、嵌入向量搜索及推理中的KVCache查找。
DeepSeek表示,3FS旨在为DeepSeek的数据密集型任务提供高效、可靠的存储与访问解决方案,助力AI研究与开发。
(详情:https://baijiahao.baidu.com/s?id=1825265025805305593&wfr=spider&for=pc)