騰訊發布 HY-Embodied-0.5-X

HY-Embodied-0.5 是一系列專為現實世界 Agents 設計的基礎模型，採用創新的混合 Transformer（MoT）架構，利用潛在標記進行模態特定運算，顯著提升了細粒度感知能力，包含兩個主要變體：一個高效的2B模型，適用於邊緣部署；以及一個強大的 32B 模型，適用於複雜推理。

主要特點

進化版 MoT 架構：旨在實現最高效率，同時不犧牲視覺清晰度。 MoT-2B 變體包含 40 億個參數，但在推理過程中僅需啟動 22 億個參數。透過強調視覺通路中的模態特定計算，它實現了密集 2B 模型的高速推理，同時提供了更精細、更卓越的感知表徵。
高品質混合鍊式推理：我們引入了一種先進的迭代式、自演化的訓練後流程。透過採用策略內蒸餾，我們成功地將強大的 32B 模型中複雜的逐步推理、規劃和高品質「思考」能力直接遷移到緊湊的 2B 變體中。
大規模具身預訓練：基於包含超過 1 億個具身和空間特定資料點的龐大且精心策劃的資料集。該模型在超過2000 億個詞元的語料庫上進行訓練，從而對 3D 空間、物理對象交互和智能體動力學形成深刻的、原生的理解。
更強大的 VLA 應用： HY-Embodied 超越了標準的學術基準，旨在成為實體機器人的核心認知引擎。它能夠無縫整合到視覺-語言-動作 (VLA) 框架中，作為一個高度穩健且功能強大的“大腦”，在複雜的現實世界機器人控制任務中實現高成功率。

Picture Source

騰訊

KJPro Technology Blog