微軟公開 Phi-4-reasoning-vision-15B 小模型語言


Phi-4-reasoning-vision-15B 是一款擁有 150 億個參數的開放權重多模態推理且功能強大的模型,可用於各種視覺語言任務,例如圖像描述、圖像問答、文件和收據閱讀、作業輔導、圖像序列變化推斷等等。除了這些通用功能外,它在數學和科學推理以及理解和處理電腦和行動裝置螢幕上的元素方面表現尤為出色。

Phi-4-reasoning-vision-15B 提供了一個極具吸引力的選擇,進一步拓展了準確性和計算成本之間的權衡邊界,尤其是在數學和科學推理方面,效能可與計算時間長十倍甚至更多的模型相媲美,並且比速度相近的模型具有更高的準確性。

Phi-4-reasoning-vision-15B 模型具備透過解讀螢幕內容和選擇操作來與圖形使用者介面互動的能力。憑藉強大的高解析度感知能力和精細的定位能力,Phi-4-reasoning-vision-15B 成為訓練智能體模型(例如能夠透過識別和定位按鈕、選單和文字方塊等互動元素來導航桌面、Web 和行動介面的智慧體模型)的理想基礎模型。由於其推理時間短,因此非常適合對低延遲和模型體積要求較高的互動式環境。

https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/

Picture Source

Microsoft

留言