vLLM 團隊發布 vLLM-Omni 支援全模態模型服務

 

vLLM-Omni 是一個擴展其對全模態模型推理和服務支援的框架,源自於 vLLM。支援全模態、非自回歸架構、異質輸出。

特點:

  • 利用 vLLM 的高效 KV 快取管理,實現最先進的 AR 支持
  • 管線階段執行重疊以實現高吞吐量效能
  • 基於 OmniConnector 的完全解耦和跨階段的動態資源分配

可與下列產品搭配使用:
  • 異質管道抽像用於管理複雜的模型工作流程
  • 與流行的 Hugging Face 型號無縫集成
  • 支持分佈式推理的張量、管道、數據和專家並行性
  • 串流媒體輸出
  • 相容於 OpenAI 的 API 伺服器
無縫支援 HuggingFace 上大多數流行的開源模型,包括:
  • 全模態模型(例如 Qwen2.5-Omni、Qwen3-Omni)
  • 多模態生成模型(例如 Qwen-Image)

留言