Redis 創始人發布 DeepSeek V4 Flash 專用引擎 ds4


Redis 創始人 Salvatore Sanfilippo 發布專為 DeepSeek V4 Flash 研發的推理引擎 ds4,這是一個專為 DeepSeek V4 Flash 設計的小型原生推理引擎。

ds4 專案的核心理念是「專精一事」,不追求成為通用的模型運算框架(如 llama.cpp),而是針對 DeepSeek-V4-Flash 進行極致的優化與適配。

專為 DeepSeek-V4-Flash 打造

  • 非通用引擎:它不是通用的 GGUF 播放器,而是專門針對 DeepSeek-V4-Flash 的架構(如其特殊的 MoE、KV 快取壓縮技術)進行了硬編碼優化。
  • Metal 優化:主要針對 Apple Silicon (Mac) 的 Metal API 進行優化,旨在讓 MacBook Pro 或 Mac Studio 成為強大的本地 AI 運算站。
  • 端到端體驗:目標是讓本地模型不僅是「能跑」,而是達到「完備」的可用狀態(含 API Server、Agent 整合)。

DeepSeek-V4-Flash 的技術選擇原因

  • 速度快:由於採用混合專家模型(MoE),激活參數少,推理速度極快。
  • 聰明的思考模式:與其他思考模型(如 o1-preview)相比,V4-Flash 的思考長度會根據問題複雜度自動調整,避免了簡單問題也要思考很久的尷尬。
  • 超長上下文:支援高達 100 萬(1M)Token 的上下文視窗。
  • 高品質量化:專案提供了特殊的 2-bit 量化(僅針對 MoE 專家進行量化,保留關鍵權重),使 128GB RAM 的 Mac 也能跑動這個大型模型。

主要功能與特性

  • KV Cache 磁碟化 (KV-on-disk):這是一個大創新。它將 KV Cache(模型記憶)視為磁碟的一等公民。當你在進行長文本對話或使用 Agent 時,快取會存入磁碟,即使重啟伺服器或切換對話,也能快速恢復,無需重新預填充(Prefill)。
  • 相容 API 伺服器:提供與 OpenAI 和 Anthropic (Claude) 相容的 HTTP API 端點,可以直接對接 Claude Code、OpenCode 或其他 AI Agent 工具。
  • 投機採樣 (Speculative Decoding):實驗性地支援 MTP (Multi-Token Prediction) 投機路徑,以進一步提升生成速度。
  • 互動式 CLI:包含一個內建的互動式聊天界面,支援多輪對話和 Metal KV 快取檢查點。


Picture Source
Gemini


留言