騰訊發布 HY-Embodied-0.5-X


HY-Embodied-0.5 是一系列專為現實世界 Agents 設計的基礎模型,採用創新的混合 Transformer(MoT)架構,利用潛在標記進行模態特定運算,顯著提升了細粒度感知能力,包含兩個主要變體:一個高效的2B模型,適用於邊緣部署;以及一個強大的 32B 模型,適用於複雜推理。

主要特點

  • 進化版 MoT 架構:旨在實現最高效率,同時不犧牲視覺清晰度。 MoT-2B 變體包含 40 億個參數,但在推理過程中僅需啟動 22 億個參數。透過強調視覺通路中的模態特定計算,它實現了密集 2B 模型的高速推理,同時提供了更精細、更卓越的感知表徵。
  • 高品質混合鍊式推理:我們引入了一種先進的迭代式、自演化的訓練後流程。透過採用策略內蒸餾,我們成功地將強大的 32B 模型中複雜的逐步推理、規劃和高品質「思考」能力直接遷移到緊湊的 2B 變體中。
  • 大規模具身預訓練:基於包含超過 1 億個具身和空間特定資料點的龐大且精心策劃的資料集。該模型在超過2000 億個詞元的語料庫上進行訓練,從而對 3D 空間、物理對象交互和智能體動力學形成深刻的、原生的理解。
  • 更強大的 VLA 應用: HY-Embodied 超越了標準的學術基準,旨在成為實體機器人的核心認知引擎。它能夠無縫整合到視覺-語言-動作 (VLA) 框架中,作為一個高度穩健且功能強大的“大腦”,在複雜的現實世界機器人控制任務中實現高成功率。

留言