DeepSeek 在 #OpenSourceWeek 中的五连弹展示了其在 AGI 研究中的最新开源进展。以下是各天发布的内容概览:

DAY 0
预热
DeepSeek 团队宣布将开源 5 个仓库,并强调其透明化的研究方式。团队自称“小而精”,但希望通过社区合作加速 AGI 的发展。

DAY 1
FlashMLA
核心内容:
FlashMLA 是一个高效的 MLA(Memory Limited Attention)解码内核,专门为 Hopper GPU 进行优化,支持可变长度序列。 技术亮点: 支持 BF16(BFloat16) 采用 Paged KV 缓存(块大小 64) 3000 GB/s 内存带宽 & 580 TFLOPS 计算性能(H800)
📥 GitHub: https://github.com/deepseek-ai/FlashMLA
关键优势:
针对 Hopper GPU 的优化
专为 NVIDIA Hopper GPU(H800) 设计,充分利用 Tensor Cores 和 Transformer Engine。 3000 GB/s 内存带宽,加速数据传输。 580 TFLOPS 计算性能,提升 AI 计算吞吐量。
支持可变长度序列
适配 NLP 任务(如 聊天机器人、翻译、文本生成),无需固定序列长度,提高计算效率。
高效内存管理(Paged KV Cache)
块大小 64,减少内存占用,提高 LLM 推理速度。 受 "LLM in a Flash" 研究启发,优化长序列推理。
支持 BF16 精度
比 FP32 更高效,降低存储需求,加速计算,同时保持 AI 任务的精度。
可运行更大规模 AI 模型
结合 Flash Memory & 高效数据传输,突破 GPU DRAM 限制。 运行比 GPU 内存 大 2 倍的模型,提高 4-5 倍(CPU)/ 20-25 倍(GPU) 性能。
开源,推动 AI 社区创新
GitHub 开源,全球开发者可自由使用、优化、集成,降低开发成本。
已在生产环境使用
经过测试,稳定可靠,可直接部署于 大规模 AI 任务。
竞争优势
对标 FlashAttention,深度优化 Hopper GPU,降低 AI 推理成本,提高性能。
网友评论:
Wow, what an awesome start into the new week! Hope PyTorch adopts it in their next version release (like they integrated FlashAttention).
DeepSeek’s FlashMLA is so fast it’s practically doing stand-up comedy on Hopper GPUs—3000 GB/s and 580 TFLOPS, wow, what’s next, live conversations with your toaster, or full-on AGI by breakfast? 😂
FlashMLA's optimization for Hopper GPUs is set to give DeepSeek a serious performance boost. By enhancing decoding efficiency, it's tackling those pesky "server busy" issues head-on, especially at peak times. The secret sauce? Streamlining variable-length sequence handling.

DAY 2
DeepEP
核心内容:
DeepEP 是首个开源的 EP(Expert Parallel)通信库,优化了 Mixture of Experts(MoE)模型的训练与推理通信。 技术亮点: 高效的 All-to-All 通信优化 支持 NVLink 和 RDMA 的节点内与节点间通信 预填充推理的高吞吐核函数 低延迟解码推理 原生 FP8 计算支持 GPU 资源灵活管理,实现计算-通信重叠
📥 GitHub: https://github.com/deepseek-ai/DeepEP
DeepEP说明
高效的 All-to-All 通信
在 MoE 模型 中,每个专家(Expert)都需要与其他专家 交换数据。 DeepEP 让数据像 高速公路上的专用车道 一样,确保流畅传输,无通信瓶颈。 影响:加快 MoE 模型的训练速度,减少数据交换延迟。
📌 解读:传统 MoE 模型在多 GPU 之间交换数据时容易出现通信瓶颈,DeepEP 通过优化 All-to-All 通信,让数据高效流动,避免“塞车”。
支持 Intranode & Internode 通信
Intranode 通信(同一芯片内)
NVLink 技术(NVIDIA 高速互联技术)加速数据传输,让 GPU 之间高效沟通。 比喻:像城市内部的高速公路,确保市内交通快速流动。 Internode 通信(跨设备传输)
采用 RDMA(远程直接内存访问),让数据直接在不同机器间传输,无需 CPU 介入。 比喻:类似 城际高铁,让数据跨服务器流动时更快、更低延迟。
📌 解读:DeepEP 同时优化 GPU 内部和跨 GPU 设备的通信,确保 AI 训练在单机和多机环境下都能高效运行。
高吞吐 & 低延迟 GPU 内核
AI 训练的效率不仅取决于 GPU 计算能力,还取决于数据交换的速度。 DeepEP 采用 专用 GPU 内核,减少数据交换等待时间,让 GPU 始终保持高效计算。 影响:AI 训练更快,GPU 资源利用率更高。
📌 解读:传统通信方式可能导致 GPU 等待数据,DeepEP 减少等待时间,提高吞吐量,让 GPU 计算能力得到充分发挥。
灵活的资源控制
动态分配 GPU 计算任务,让 AI 训练 适配不同硬件环境。 不同规模的 AI 训练任务都能高效运行,不会因为资源分配不均导致性能浪费。 影响:适用于 多种 AI 训练场景,让开发者灵活优化计算资源。
📌 解读:DeepEP 让 GPU 计算资源可以灵活适配不同的 AI 任务,即使硬件配置不同,也能保持高效运作。
网友评论:
昨天DeepSeek发布的DeepEP在文档中描述:
“为了追求极致性能,我们发现并使用了一个文档之外的PTX指令:ld.global.nc.L1::no_allocate.L2::256B。这条指令会导致未定义行为:使用非一致性只读PTX修饰符.nc访问易失性GPU内存。但是,在Hopper架构上,经过测试,使用.L1::no_allocate可以保证正确性,并且性能会好得多。”
但实际上no_allocate这个指令其实文档中是有的(详见文档214页),但是只是草草说了句用途,并没有详细解释能带来什么提升。
可见DeepSeek 对CUDA的研究程度之深,以及在GPU领域的积累。
官网文档没说清楚,好多nv的哥们昨天都在吐槽,不过基本不太有人deep 到这个细节程度,可想而知他们是做了多少实验,确实挺狠。
工程师的极端优化思维[赞][赞][赞]

DAY 3
DeepGEMM
核心内容:
DeepGEMM 是一款 FP8 GEMM(General Matrix Multiplication)库,支持稠密和 MoE 计算,优化 V3/R1 训练与推理。 技术亮点: Hopper GPU 上可达 1350+ FP8 TFLOPS 轻量级设计,无重依赖 采用 Just-In-Time(JIT)编译 核心代码仅 300 行,但超越专家调优的核函数 兼容稠密布局及两种 MoE 布局
📥 GitHub: https://github.com/deepseek-ai/DeepGEMM
解析:
AI 计算的“高速公路”
DeepGEMM 类似于 AI 计算世界中的“超级引擎”,确保数据在神经网络之间高效流动,就像 未来城市中的高效交通系统,消除计算瓶颈,让 AI 训练和推理更快。
超高计算性能
1350+ TFLOPS(每秒 1.35 千万亿次计算),专为 H800 GPU 设计。 支持 Dense 和 Mixture of Experts(MoE) 计算,可高效运行 DeepSeek-V3 和 R1 等大模型。 仅 300 行核心代码,设计精简,但性能超越许多 专家级优化的传统库。 无繁重依赖,完全 JIT(即时编译),像“超跑”一样轻量高效。
意义: 相比传统库,DeepGEMM 占用更少资源,计算速度更快,更适合 AI 训练和推理任务。
采用 FP8(8 位浮点数),比 FP32 和 BF16 占用更少内存,计算速度更快。 适用于 大规模 AI 训练,即使模型参数达 数十亿 级别,也能高效运行。 在 中国市场定制优化,让 AI 训练更加经济高效。
意义:FP8 降低了 AI 计算成本,同时保持足够的模型精度,使得更大规模的 AI 模型可以在有限的 GPU 资源上运行。
Dense 计算:适用于标准 AI 任务,如 NLP 和 CV。 MoE(Mixture of Experts)支持: 允许多个专家网络协同工作,提高大模型的计算效率。 使 AI 能动态分配计算任务,适用于 对话 AI、科学计算等任务。
意义:DeepGEMM 让 MoE 模型更加高效,相比传统模型,计算速度更快、能耗更低。
提升 AI 训练效率:研究人员可以用更低的硬件成本,训练 高性能 AI 模型。 降低 AI 计算门槛:适合 初创公司、学术研究者,无需昂贵硬件即可使用。 即插即用(Plug & Play):无复杂依赖,轻松集成到 AI 项目中。
意义:DeepGEMM 让 AI 开发更便宜、更快、更智能,特别适合资金有限的团队。
网友评论:
DeepGEMM 就像一个魔法玩具,让计算机以超快的速度完成数学运算!🚗💨
速度:就像 赛车 疾驰而过。🏎️
简单:使用起来轻松直观,就像在玩游戏。🎮
高效:节能省电,就像一盏明亮的灯泡。💡
DeepGEMM 让计算机更聪明、更快速地解决难题!🌟

DAY 4
优化并行策略
核心内容:
发布了两种并行优化策略及计算分析工具:
DualPipe - 一种双向流水线并行算法,实现计算-通信重叠 EPLB - 专为 V3/R1 设计的专家并行负载均衡器 V3/R1 计算-通信重叠分析工具
📥 GitHub:
DualPipe https://github.com/deepseek-ai/DualPipe EPLB https://github.com/deepseek-ai/eplb Profile Data https://github.com/deepseek-ai/profile-data)
解析:
DualPipe 通过 计算与通信重叠,减少 GPU 等待时间,让训练更高效。 比喻:就像接力赛跑,接力棒从不停止,计算任务与数据传输无缝衔接。 影响:减少训练中的空闲时间,让模型训练比传统方式更快完成。
📌 解读:在传统的 AI 训练中,GPU 计算和数据传输(通信)通常是分开执行的,导致 GPU 在等待数据时浪费大量算力。DualPipe 让这两个过程 并行执行,极大提高了计算效率。
优化计算效率,减少 GPU 需求,相比竞品 计算需求减少高达 11 倍。 DeepSeek 仅使用 2,048 张 H800 GPU,而不是更昂贵的大规模集群。 影响:减少硬件成本,降低 AI 训练的经济门槛。
📌 解读:目前 OpenAI、Google、Meta 等公司依赖 H100 超大集群 进行 AI 训练,而 DeepSeek 通过 H800 + 计算优化,达成相似的训练性能,但 硬件成本大幅下降。这意味着 AI 训练变得更经济高效,让更多团队有能力训练大模型。
DeepSeek V3 规模达到 6710 亿(671B)参数,依然能保持高效训练。 模型变大,但训练时间和资源消耗不会爆炸式增长。 影响:可以高效扩展超大规模 AI 模型,而不会因计算瓶颈而拖慢进度。
📌 解读:一般来说,模型参数越大,训练时间和资源需求都会成倍增长。然而 DeepSeek 通过 DualPipe + EPLB,在扩展超大模型的同时,保持相对稳定的计算开销,解决了 AI 训练中的可扩展性问题。
EPLB(专家并行负载均衡) 确保 每块 GPU 都在高效工作,避免闲置浪费。 DualPipe 进一步 提升计算与通信的重叠度,最大化 GPU 计算能力。 影响:减少 GPU 闲置,提高整体计算效率,提升 AI 训练吞吐量。
📌 解读:很多 AI 训练任务在 GPU 资源调度不均衡时,可能导致部分 GPU 过载,而部分 GPU 长时间空闲。EPLB 通过 智能任务分配,确保 GPU 负载均衡,减少计算资源浪费。
与行业巨头的对比(Comparison to Big Players)
DeepSeek AI vs. OpenAI / Google / Meta:DeepSeek 采用 H800 + 高效优化,而其他巨头大多使用 H100 超级集群。 强调“效率”而非“暴力计算”:DeepSeek 通过 DualPipe + EPLB,用更少的 GPU 资源训练同级别 AI 模型。 比喻:类似 “大卫 vs. 歌利亚”,DeepSeek 通过 计算优化 取胜,而非仅靠硬件堆砌。
📌 解读:目前大多数 AI 训练依赖 昂贵的 H100 超大集群,而 DeepSeek 选择了一条 低成本高效能 的道路,证明了优化算法可以弥补硬件差距。这使得 AI 训练更具普惠性,也让 计算资源更容易获取。
网友评论:
This is going to be very popular with companies with small budgets. Congratulations on this achievement; I look forward to V4 and R2. Hopefully, we will also see a video model outperform Veo2 very soon 🙏🙏🙏
Love the DualPipe diagram in the paper as well! I added the other 2 in the table for comparison - 1F1B and ZB1P


DAY 5
预热
核心内容:
3FS(Fire-Flyer File System),这是一款 专为 AI 训练和推理优化的并行文件系统,具备超高吞吐量、强一致性架构,适用于 大规模数据访问和处理。
1. 3FS = AI 计算的“超高速数据通道”
类似 AI 计算的涡轮增压引擎(Thruster),加速 数据访问 和 存储读写。 采用 并行文件系统架构,最大化利用 SSD 带宽 & RDMA 网络,提供超高数据吞吐量。
2. 超强吞吐性能
🔥 6.6 TiB/s 读取吞吐量(在 180 节点集群 测试)
🔥 3.66 TiB/min 处理速度(在 25 节点 GraySort 测试)
🔥 40+ GiB/s 单节点峰值吞吐量(用于 KVCache 查询)
📌 解读:
6.6 TiB/s 读取吞吐量远超传统分布式存储,确保 AI 训练时 数据流畅无阻。 GraySort 基准测试 证明其数据处理能力强,适合大规模数据预处理。 KVCache 查询高吞吐量,使 AI 推理任务 更快、更高效。
3. 解耦架构 & 强一致性
存储与计算分离,提升扩展性,避免单点瓶颈。保证数据一致性,适用于 AI 训练和推理任务。
4. AI 训练 & 推理的全能存储支持 3FS 适用于 AI 计算的多个关键场景,包括:训练数据预处理、数据集加载(Dataset Loading)、Checkpoint 存储/恢复(训练中断 & 继续)、Embedding 向量搜索(AI 语义检索)、KVCache 查询**(推理加速)
5. 生态扩展:Smallpond 🌊 Smallpond 是基于 3FS 的 数据处理框架,专注于:高效数据处理、优化存储管理、适配 AI 训练 & 推理。链接:https://github.com/deepseek-ai/smallpond
🚀 DeepSeek 通过 3FS,让 AI 计算的数据流动更快、更智能,推动大模型训练和推理效率的全面提升! 🔥
📥 GitHub: 3FS https://github.com/deepseek-ai/3FS
解析:
3FS(Fire-Flyer File System)是一款 高性能并行文件系统,专为 AI 训练 & 推理 设计,提供超快数据访问,避免存储瓶颈。
💡 3FS 如何工作?
想象一个 超级图书馆 📖,书籍(数据)存放在多个分馆(存储节点)。研究者(计算节点)可以随时借阅任何书籍,而且不受位置影响,因为 3FS 采用 高速传输通道(RDMA),让数据访问更快、更顺畅。
🚀 关键优势
✅ 超快数据访问:
6.6 TiB/s 读取吞吐量,适配超大规模 AI 数据训练。 避免数据加载瓶颈,让 AI 训练和推理更流畅。
✅ 可扩展性强:
存储 & 计算解耦,可以轻松扩展 AI 训练规模。 适用于 企业 & 研究级 AI 模型,支持大规模计算集群。
✅ 专为 AI 优化:
支持数据加载、Checkpoint 存储、推理缓存,提升 AI 训练效率。 KVCache 高速查询,加速 AI 推理任务。
✅ 数据一致性 & 可靠性:
所有计算节点访问相同数据,保证 AI 训练结果稳定。 采用 强一致性架构(CRAQ),避免数据版本不匹配问题。
🎯 总结
3FS = AI 计算的“数据高速公路” 🚗💨
更快(6.6 TiB/s 读取速度,避免数据瓶颈) 更稳(强一致性,保证 AI 训练结果准确) 更灵活(适配 AI 训练、推理、存储需求)
网友评论:
Last day of DeepSeek cooking my Nvidia Stock. 😢
3FS and Smallpond are setting new benchmarks in AI data processing—blazing speeds and seamless integration.
Incredible, I was expecting that.👏
Congratulations guys🎉. These days, you guys deliver real value that no one else delivers.
Nex, please, we need the Video model and V4+R2 🙏🙏🙏🙏, the whole world is waiting for you guys.