vLLM 團隊發布 vLLM-Omni 支援全模態模型服務

vLLM 團隊發布 vLLM-Omni 支援全模態模型服務

日期： 12月 06, 2025

vLLM-Omni 是一個擴展其對全模態模型推理和服務支援的框架，源自於 vLLM。支援全模態、非自回歸架構、異質輸出。

特點：

利用 vLLM 的高效 KV 快取管理，實現最先進的 AR 支持
管線階段執行重疊以實現高吞吐量效能
基於 OmniConnector 的完全解耦和跨階段的動態資源分配

可與下列產品搭配使用：

異質管道抽像用於管理複雜的模型工作流程
與流行的 Hugging Face 型號無縫集成
支持分佈式推理的張量、管道、數據和專家並行性
串流媒體輸出
相容於 OpenAI 的 API 伺服器

無縫支援 HuggingFace 上大多數流行的開源模型，包括：

全模態模型（例如 Qwen2.5-Omni、Qwen3-Omni）
多模態生成模型（例如 Qwen-Image）

https://github.com/vllm-project/vllm-omni

留言