百度發布智慧文件理解模型 PaddleOCR-VL,並公開其程式碼,PaddleOCR能夠以業界領先的準確率將文件和影像轉換為結構化、AI 友善的資料(例如 JSON 和 Markdown),為全球從獨立開發者、新創公司到大型企業的各類 AI 應用提供支援。
PaddleOCR 擁有超過 50,000 個 Star ,並與 MinerU、RAGFlow 和 OmniParser 等領先專案深度集成,已成為 AI 時代開發者建立智慧文件應用的首選解決方案。
核心功能
- 透過 0.9B VLM 進行多語言文件解析
- 通用場景文字識別
- 複雜文件解析
- 智慧資訊擷取
- 支援 MCP 與 Claude Desktop 等 Agent 應用整合
https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file

留言
張貼留言