DeepSeek-V4 預覽版發布,包括兩個強大的混合專家 (MoE) 語言模型—— DeepSeek -V4-Pro(1.6T 參數,已啟動 49B)和 DeepSeek-V4-Flash (284B 參數,已啟動 13B)—— 兩者均支援一百萬個標記的上下文長度。
DeepSeek-V4 系列在架構和最佳化方面進行了多項關鍵升級:
- 混合注意力架構:我們設計了一種混合注意力機制,結合了壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA),以顯著提高長情境效率。在 100 萬個詞元的上下文設定下,與 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 僅需 27% 的單字元推理浮點運算次數和 10% 的鍵值快取。
- 流形約束超連接(mHC):我們引入 mHC 來加強傳統的殘差連接,增強跨層訊號傳播的穩定性,同時保持模型的表達能力。
- Muon優化器:我們採用Muon優化器以實現更快的收斂速度和更高的訓練穩定性。
DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最高推理模式,顯著提升了開源模型的知識能力,在編碼基準測試中取得了頂尖性能,並在推理和智能體任務方面顯著縮小了與領先的閉源模型之間的差距。
DeepSeek-V4-Flash-Max 在擁有更大的推理預算時,其推理性能與 Pro 版本相當,但由於其參數規模較小,在純知識任務和最複雜的智能體工作流程方面自然略遜一籌。
DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 都支援三種推理模式:
- Non-think
- Think High
- Think Max
Picture Source
DeepSeek

留言
張貼留言