DeepSeek-V3高效训练关键技术分析,到底有哪些亮点?

Viewed 78

DeepSeekV3的高效训练有着诸多亮点。

一、高效的架构设计
1.采用MLA和DeepSeekMoE架构
DeepSeekV3采用了MultiheadLatentAttention(MLA)和DeepSeekMoE架构。MLA通过低秩压缩技术减少了推理时的KeyValue缓存,显著提升了推理效率。
DeepSeekMoE则通过细粒度的专家分配和共享专家机制,实现高效扩展和负载均衡,这种架构在DeepSeekV2中已经得到了充分验证。
2.创新的负载均衡策略
包括无辅助损失负载均衡和序列级负载均衡。在DeepSeekMoE中的多专家负载均衡问题上,提出了一种不需要辅助loss就能实现的解决方案,相比使用辅助loss提升了模型性能。

二、多令牌预测(MTP)训练
引入了MultiTokenPrediction技术,相比原来每次只能预测一个token,显著提升了训练效率。

三、成本效益方面
1.低成本训练
其训练成本仅为557.6万美元,远低于行业平均水平,成为开源模型中的“性价比之王”。训练数据量达到了14.8万亿个token,在预训练阶段,训练DeepSeekV3每万亿tokens仅需要180KH800GPU小时。
在不到两个月的时间内完成预训练,耗时2664KGPU小时。
2.工程优化
在工程方面,如流水线并行、通信优化和内存管理全面提升效率,有助于在训练过程中节省资源。

四、训练阶段的策略
1.冷启动阶段
第一阶段是冷启动,一开始要收集少量的LongCoT数据来微调模型,目的是防止早期训练不稳定和可读性差问题。
2.强化学习阶段
第二阶段是推理导向的强化学习,以DeepSeekV3为基础进行相关操作。

五、模型性能表现优异

0 Answers