Meta 發布分散式非同步強化學習框架 LlamaRL


Meta 發布分散式非同步強化學習框架 LlamaRL,這是一套基於 PyTorch 構建的全異步分散式架構,透過獨立的執行器並行執行產生、訓練和評分任務,顯著降低訓練時間,提升效率。

LlamaRL 的架構優先考慮靈活的執行和高效的記憶體使用。它將生成過程卸載到專用的執行器,使訓練器能夠專注於模型更新。分散式直接記憶體存取 (DDMA) 支援這種卸載。它使用 NVIDIA NVLink 在兩秒內同步權重——即使對於包含 4050 億個參數的模型也是如此。此框架應用非同步重要性加權策略最佳化 (AIPO) 來修正非同步執行導致的偏離策略問題。每個執行器獨立運行,利用細粒度並行性,並將量化技術應用於推理模型,以進一步降低計算和記憶體需求。

https://arxiv.org/abs/2505.24034

留言