百度發布智慧文件理解模型 PaddleOCR-VL


百度發布智慧文件理解模型 PaddleOCR-VL,並公開其程式碼,PaddleOCR能夠以業界領先的準確率將文件和影像轉換為結構化、AI 友善的資料(例如 JSON 和 Markdown),為全球從獨立開發者、新創公司到大型企業的各類 AI 應用提供支援。 

PaddleOCR 擁有超過 50,000 個 Star ,並與 MinerU、RAGFlow 和 OmniParser 等領先專案深度集成,已成為 AI  時代開發者建立智慧文件應用的首選解決方案。

核心功能

  • 透過 0.9B VLM 進行多語言文件解析
  • 通用場景文字識別
  • 複雜文件解析
  • 智慧資訊擷取
  • 支援 MCP 與 Claude Desktop 等 Agent 應用整合

https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file

留言