百度發布智慧文件理解模型 PaddleOCR-VL

百度發布智慧文件理解模型 PaddleOCR-VL

日期： 10月 18, 2025

百度發布智慧文件理解模型 PaddleOCR-VL，並公開其程式碼，PaddleOCR能夠以業界領先的準確率將文件和影像轉換為結構化、AI 友善的資料（例如 JSON 和 Markdown），為全球從獨立開發者、新創公司到大型企業的各類 AI 應用提供支援。

PaddleOCR 擁有超過 50,000 個 Star ，並與 MinerU、RAGFlow 和 OmniParser 等領先專案深度集成，已成為 AI 時代開發者建立智慧文件應用的首選解決方案。

核心功能

透過 0.9B VLM 進行多語言文件解析
通用場景文字識別
複雜文件解析
智慧資訊擷取
支援 MCP 與 Claude Desktop 等 Agent 應用整合

https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file

留言