vLLM-Omni 是一個擴展其對全模態模型推理和服務支援的框架,源自於 vLLM。支援全模態、非自回歸架構、異質輸出。
特點:
- 利用 vLLM 的高效 KV 快取管理,實現最先進的 AR 支持
- 管線階段執行重疊以實現高吞吐量效能
- 基於 OmniConnector 的完全解耦和跨階段的動態資源分配
可與下列產品搭配使用:
- 異質管道抽像用於管理複雜的模型工作流程
- 與流行的 Hugging Face 型號無縫集成
- 支持分佈式推理的張量、管道、數據和專家並行性
- 串流媒體輸出
- 相容於 OpenAI 的 API 伺服器
無縫支援 HuggingFace 上大多數流行的開源模型,包括:
- 全模態模型(例如 Qwen2.5-Omni、Qwen3-Omni)
- 多模態生成模型(例如 Qwen-Image)

留言
張貼留言