DeepSeek #オープンソースウィーク - 連続5日間の公開

DeepSeek 在 #OpenSourceWeek 中的五连弹展示了其在 AGI 研究中的最新开源进展。以下是各天发布的内容概览：

DAY 0

预热

DeepSeek 团队宣布将开源 5 个仓库，并强调其透明化的研究方式。团队自称“小而精”，但希望通过社区合作加速 AGI 的发展。

DAY 1

FlashMLA

核心内容：

FlashMLA 是一个高效的 MLA（Memory Limited Attention）解码内核，专门为 Hopper GPU 进行优化，支持可变长度序列。
技术亮点：

支持 BF16（BFloat16）
采用 Paged KV 缓存（块大小 64）
3000 GB/s 内存带宽 & 580 TFLOPS 计算性能（H800）

📥 GitHub: https://github.com/deepseek-ai/FlashMLA

关键优势：

针对 Hopper GPU 的优化

专为 NVIDIA Hopper GPU（H800） 设计，充分利用 Tensor Cores 和 Transformer Engine。
3000 GB/s 内存带宽，加速数据传输。
580 TFLOPS 计算性能，提升 AI 计算吞吐量。

支持可变长度序列

适配 NLP 任务（如 聊天机器人、翻译、文本生成），无需固定序列长度，提高计算效率。

高效内存管理（Paged KV Cache）

块大小 64，减少内存占用，提高 LLM 推理速度。
受 "LLM in a Flash" 研究启发，优化长序列推理。

支持 BF16 精度

比 FP32 更高效，降低存储需求，加速计算，同时保持 AI 任务的精度。

可运行更大规模 AI 模型

结合 Flash Memory & 高效数据传输，突破 GPU DRAM 限制。
运行比 GPU 内存 大 2 倍的模型，提高 4-5 倍（CPU）/ 20-25 倍（GPU） 性能。

开源，推动 AI 社区创新

GitHub 开源，全球开发者可自由使用、优化、集成，降低开发成本。

已在生产环境使用

经过测试，稳定可靠，可直接部署于 大规模 AI 任务。

竞争优势

对标 FlashAttention，深度优化 Hopper GPU，降低 AI 推理成本，提高性能。

网友评论：

Wow, what an awesome start into the new week! Hope PyTorch adopts it in their next version release (like they integrated FlashAttention).

DeepSeek’s FlashMLA is so fast it’s practically doing stand-up comedy on Hopper GPUs—3000 GB/s and 580 TFLOPS, wow, what’s next, live conversations with your toaster, or full-on AGI by breakfast? 😂

FlashMLA's optimization for Hopper GPUs is set to give DeepSeek a serious performance boost. By enhancing decoding efficiency, it's tackling those pesky "server busy" issues head-on, especially at peak times. The secret sauce? Streamlining variable-length sequence handling.

DAY 2

DeepEP

核心内容：

DeepEP 是首个开源的 EP（Expert Parallel）通信库，优化了 Mixture of Experts（MoE）模型的训练与推理通信。
技术亮点：

高效的 All-to-All 通信优化
支持 NVLink 和 RDMA 的节点内与节点间通信
预填充推理的高吞吐核函数
低延迟解码推理
原生 FP8 计算支持
GPU 资源灵活管理，实现计算-通信重叠

📥 GitHub: https://github.com/deepseek-ai/DeepEP

DeepEP说明

高效的 All-to-All 通信

在 MoE 模型中，每个专家（Expert）都需要与其他专家交换数据。
DeepEP 让数据像高速公路上的专用车道一样，确保流畅传输，无通信瓶颈。
影响：加快 MoE 模型的训练速度，减少数据交换延迟。

📌 解读：传统 MoE 模型在多 GPU 之间交换数据时容易出现通信瓶颈，DeepEP 通过优化 All-to-All 通信，让数据高效流动，避免“塞车”。

支持 Intranode & Internode 通信

Intranode 通信（同一芯片内）

NVLink 技术（NVIDIA 高速互联技术）加速数据传输，让 GPU 之间高效沟通。
比喻：像城市内部的高速公路，确保市内交通快速流动。

Internode 通信（跨设备传输）

采用 RDMA（远程直接内存访问），让数据直接在不同机器间传输，无需 CPU 介入。
比喻：类似城际高铁，让数据跨服务器流动时更快、更低延迟。

📌 解读：DeepEP 同时优化 GPU 内部和跨 GPU 设备的通信，确保 AI 训练在单机和多机环境下都能高效运行。

高吞吐 & 低延迟 GPU 内核

AI 训练的效率不仅取决于 GPU 计算能力，还取决于数据交换的速度。
DeepEP 采用专用 GPU 内核，减少数据交换等待时间，让 GPU 始终保持高效计算。
影响：AI 训练更快，GPU 资源利用率更高。

📌 解读：传统通信方式可能导致 GPU 等待数据，DeepEP 减少等待时间，提高吞吐量，让 GPU 计算能力得到充分发挥。

灵活的资源控制

动态分配 GPU 计算任务，让 AI 训练适配不同硬件环境。
不同规模的 AI 训练任务都能高效运行，不会因为资源分配不均导致性能浪费。
影响：适用于多种 AI 训练场景，让开发者灵活优化计算资源。

📌 解读：DeepEP 让 GPU 计算资源可以灵活适配不同的 AI 任务，即使硬件配置不同，也能保持高效运作。

网友评论：

昨天DeepSeek发布的DeepEP在文档中描述：

“为了追求极致性能，我们发现并使用了一个文档之外的PTX指令：ld.global.nc.L1::no_allocate.L2::256B。这条指令会导致未定义行为：使用非一致性只读PTX修饰符.nc访问易失性GPU内存。但是，在Hopper架构上，经过测试，使用.L1::no_allocate可以保证正确性，并且性能会好得多。”

但实际上no_allocate这个指令其实文档中是有的（详见文档214页），但是只是草草说了句用途，并没有详细解释能带来什么提升。

可见DeepSeek 对CUDA的研究程度之深，以及在GPU领域的积累。

官网文档没说清楚，好多nv的哥们昨天都在吐槽，不过基本不太有人deep 到这个细节程度，可想而知他们是做了多少实验，确实挺狠。

工程师的极端优化思维[赞][赞][赞]

DAY 3

DeepGEMM

核心内容：

DeepGEMM 是一款 FP8 GEMM（General Matrix Multiplication）库，支持稠密和 MoE 计算，优化 V3/R1 训练与推理。
技术亮点：

Hopper GPU 上可达 1350+ FP8 TFLOPS
轻量级设计，无重依赖
采用 Just-In-Time（JIT）编译
核心代码仅 300 行，但超越专家调优的核函数
兼容稠密布局及两种 MoE 布局

📥 GitHub: https://github.com/deepseek-ai/DeepGEMM

解析：

AI 计算的“高速公路”

DeepGEMM 类似于 AI 计算世界中的“超级引擎”，确保数据在神经网络之间高效流动，就像未来城市中的高效交通系统，消除计算瓶颈，让 AI 训练和推理更快。

超高计算性能

1350+ TFLOPS（每秒 1.35 千万亿次计算），专为 H800 GPU 设计。
支持 Dense 和 Mixture of Experts（MoE）计算，可高效运行 DeepSeek-V3 和 R1 等大模型。
仅 300 行核心代码，设计精简，但性能超越许多专家级优化的传统库。
无繁重依赖，完全 JIT（即时编译），像“超跑”一样轻量高效。

意义： 相比传统库，DeepGEMM 占用更少资源，计算速度更快，更适合 AI 训练和推理任务。

FP8 精度，降低资源消耗

采用 FP8（8 位浮点数），比 FP32 和 BF16 占用更少内存，计算速度更快。
适用于大规模 AI 训练，即使模型参数达数十亿级别，也能高效运行。
在中国市场定制优化，让 AI 训练更加经济高效。

意义：FP8 降低了 AI 计算成本，同时保持足够的模型精度，使得更大规模的 AI 模型可以在有限的 GPU 资源上运行。

适用于 Dense 和 MoE（专家网络）

Dense 计算：适用于标准 AI 任务，如 NLP 和 CV。
MoE（Mixture of Experts）支持：

允许多个专家网络协同工作，提高大模型的计算效率。
使 AI 能动态分配计算任务，适用于对话 AI、科学计算等任务。

意义：DeepGEMM 让 MoE 模型更加高效，相比传统模型，计算速度更快、能耗更低。

适合科研、企业和初创公司

提升 AI 训练效率：研究人员可以用更低的硬件成本，训练高性能 AI 模型。
降低 AI 计算门槛：适合初创公司、学术研究者，无需昂贵硬件即可使用。
即插即用（Plug & Play）：无复杂依赖，轻松集成到 AI 项目中。

意义：DeepGEMM 让 AI 开发更便宜、更快、更智能，特别适合资金有限的团队。

网友评论：

DeepGEMM 就像一个魔法玩具，让计算机以超快的速度完成数学运算！🚗💨
速度：就像赛车疾驰而过。🏎️
简单：使用起来轻松直观，就像在玩游戏。🎮
高效：节能省电，就像一盏明亮的灯泡。💡
DeepGEMM 让计算机更聪明、更快速地解决难题！🌟

DAY 4

优化并行策略

核心内容：

发布了两种并行优化策略及计算分析工具：

DualPipe - 一种双向流水线并行算法，实现计算-通信重叠
EPLB - 专为 V3/R1 设计的专家并行负载均衡器
V3/R1 计算-通信重叠分析工具

📥 GitHub:

DualPipe https://github.com/deepseek-ai/DualPipe
EPLB https://github.com/deepseek-ai/eplb
Profile Data https://github.com/deepseek-ai/profile-data)

解析：

训练更快（Faster Training）

DualPipe 通过计算与通信重叠，减少 GPU 等待时间，让训练更高效。
比喻：就像接力赛跑，接力棒从不停止，计算任务与数据传输无缝衔接。
影响：减少训练中的空闲时间，让模型训练比传统方式更快完成。

📌 解读：在传统的 AI 训练中，GPU 计算和数据传输（通信）通常是分开执行的，导致 GPU 在等待数据时浪费大量算力。DualPipe 让这两个过程并行执行，极大提高了计算效率。

计算成本更低（Cost Savings）

优化计算效率，减少 GPU 需求，相比竞品计算需求减少高达 11 倍。
DeepSeek 仅使用 2,048 张 H800 GPU，而不是更昂贵的大规模集群。
影响：减少硬件成本，降低 AI 训练的经济门槛。

📌 解读：目前 OpenAI、Google、Meta 等公司依赖 H100 超大集群进行 AI 训练，而 DeepSeek 通过 H800 + 计算优化，达成相似的训练性能，但硬件成本大幅下降。这意味着 AI 训练变得更经济高效，让更多团队有能力训练大模型。

可扩展性更强（Scalability）

DeepSeek V3 规模达到 6710 亿（671B）参数，依然能保持高效训练。
模型变大，但训练时间和资源消耗不会爆炸式增长。
影响：可以高效扩展超大规模 AI 模型，而不会因计算瓶颈而拖慢进度。

📌 解读：一般来说，模型参数越大，训练时间和资源需求都会成倍增长。然而 DeepSeek 通过 DualPipe + EPLB，在扩展超大模型的同时，保持相对稳定的计算开销，解决了 AI 训练中的可扩展性问题。

资源利用率更高（Resource Efficiency）

EPLB（专家并行负载均衡）确保每块 GPU 都在高效工作，避免闲置浪费。
DualPipe 进一步提升计算与通信的重叠度，最大化 GPU 计算能力。
影响：减少 GPU 闲置，提高整体计算效率，提升 AI 训练吞吐量。

📌 解读：很多 AI 训练任务在 GPU 资源调度不均衡时，可能导致部分 GPU 过载，而部分 GPU 长时间空闲。EPLB 通过智能任务分配，确保 GPU 负载均衡，减少计算资源浪费。

与行业巨头的对比（Comparison to Big Players）

DeepSeek AI vs. OpenAI / Google / Meta：DeepSeek 采用 H800 + 高效优化，而其他巨头大多使用 H100 超级集群。
强调“效率”而非“暴力计算”：DeepSeek 通过 DualPipe + EPLB，用更少的 GPU 资源训练同级别 AI 模型。
比喻：类似 “大卫 vs. 歌利亚”，DeepSeek 通过计算优化取胜，而非仅靠硬件堆砌。

📌 解读：目前大多数 AI 训练依赖昂贵的 H100 超大集群，而 DeepSeek 选择了一条低成本高效能的道路，证明了优化算法可以弥补硬件差距。这使得 AI 训练更具普惠性，也让计算资源更容易获取。

网友评论：

This is going to be very popular with companies with small budgets. Congratulations on this achievement; I look forward to V4 and R2. Hopefully, we will also see a video model outperform Veo2 very soon 🙏🙏🙏

Love the DualPipe diagram in the paper as well! I added the other 2 in the table for comparison - 1F1B and ZB1P

DAY 5

预热

核心内容：

3FS（Fire-Flyer File System），这是一款 专为 AI 训练和推理优化的并行文件系统，具备超高吞吐量、强一致性架构，适用于 大规模数据访问和处理。

1. 3FS = AI 计算的“超高速数据通道”

类似 AI 计算的涡轮增压引擎（Thruster），加速 数据访问 和 存储读写。采用 并行文件系统架构，最大化利用 SSD 带宽 & RDMA 网络，提供超高数据吞吐量。

2. 超强吞吐性能

🔥 6.6 TiB/s 读取吞吐量（在 180 节点集群 测试）
🔥 3.66 TiB/min 处理速度（在 25 节点 GraySort 测试）
🔥 40+ GiB/s 单节点峰值吞吐量（用于 KVCache 查询）

📌 解读：

6.6 TiB/s 读取吞吐量远超传统分布式存储，确保 AI 训练时 数据流畅无阻。
GraySort 基准测试 证明其数据处理能力强，适合大规模数据预处理。
KVCache 查询高吞吐量，使 AI 推理任务更快、更高效。

3. 解耦架构 & 强一致性

存储与计算分离，提升扩展性，避免单点瓶颈。保证数据一致性，适用于 AI 训练和推理任务。

4. AI 训练 & 推理的全能存储支持 3FS 适用于 AI 计算的多个关键场景，包括：训练数据预处理、数据集加载（Dataset Loading）、Checkpoint 存储/恢复（训练中断 & 继续）、Embedding 向量搜索（AI 语义检索）、KVCache 查询**（推理加速）

5. 生态扩展：Smallpond 🌊 Smallpond 是基于 3FS 的 数据处理框架，专注于：高效数据处理、优化存储管理、适配 AI 训练 & 推理。链接：https://github.com/deepseek-ai/smallpond

🚀 DeepSeek 通过 3FS，让 AI 计算的数据流动更快、更智能，推动大模型训练和推理效率的全面提升！ 🔥

📥 GitHub: 3FS https://github.com/deepseek-ai/3FS

解析：

3FS（Fire-Flyer File System）是一款 高性能并行文件系统，专为 AI 训练 & 推理 设计，提供超快数据访问，避免存储瓶颈。

💡 3FS 如何工作？

想象一个 超级图书馆 📖，书籍（数据）存放在多个分馆（存储节点）。研究者（计算节点）可以随时借阅任何书籍，而且不受位置影响，因为 3FS 采用 高速传输通道（RDMA），让数据访问更快、更顺畅。

🚀 关键优势

✅ 超快数据访问：

6.6 TiB/s 读取吞吐量，适配超大规模 AI 数据训练。
避免数据加载瓶颈，让 AI 训练和推理更流畅。

✅ 可扩展性强：

存储 & 计算解耦，可以轻松扩展 AI 训练规模。
适用于 企业 & 研究级 AI 模型，支持大规模计算集群。

✅ 专为 AI 优化：

支持数据加载、Checkpoint 存储、推理缓存，提升 AI 训练效率。
KVCache 高速查询，加速 AI 推理任务。

✅ 数据一致性 & 可靠性：

所有计算节点访问相同数据，保证 AI 训练结果稳定。
采用 强一致性架构（CRAQ），避免数据版本不匹配问题。

🎯 总结

3FS = AI 计算的“数据高速公路” 🚗💨

更快（6.6 TiB/s 读取速度，避免数据瓶颈）
更稳（强一致性，保证 AI 训练结果准确）
更灵活（适配 AI 训练、推理、存储需求）

网友评论：

Last day of DeepSeek cooking my Nvidia Stock. 😢

3FS and Smallpond are setting new benchmarks in AI data processing—blazing speeds and seamless integration.

Incredible, I was expecting that.👏
Congratulations guys🎉. These days, you guys deliver real value that no one else delivers.
Nex, please, we need the Video model and V4+R2 🙏🙏🙏🙏, the whole world is waiting for you guys.