百度發布 PaddleOCR-VL-1.5，性能超過 Gemini-3-Pro 和 DeepSeek-OCR2

PaddleOCR-VL-1.5 是 PaddleOCR-VL 的下一代高級模型，在 OmniDocBench v1.5 上取得了 94.5% 的全新最先進準確率。

為了嚴格評估其對真實世界物理失真（包括掃描偽影、傾斜、變形、螢幕拍攝和光照）的穩健性，研發團隊提出 Real5-OmniDocBench 基準測試，實驗結果表明，該增強模型在新建的基準測試中達到了 SOTA 性能。

PaddleOCR-VL-1.5 的主要功能

PaddleOCR-VL-1.5 的參數大小為 0.9B，在OmniDocBench v1.5 測試中達到了 94.5% 的準確率，超越了之前的最高版本 PaddleOCR-VL。表格、公式和文字辨識方面均有顯著提升。
它引入了一種創新的文檔解析方法，支援不規則形狀定位，從而能夠在傾斜和扭曲的文檔條件下實現精確的多邊形檢測。在掃描、傾斜、扭曲、螢幕拍攝和光照等五個真實場景下的評估表明，其性能優於主流的開源和專有模型。
該模型引入了文本定位（文本行定位和識別）以及海豹識別，所有相應的指標都在各自的任務中達到了新的 SOTA 結果。
PaddleOCR-VL-1.5進一步增強了其在特殊情境和多語言辨識方面的能力。對於罕見字元、古代文本、多語言表格、底線和複選框的識別性能得到提升，語言覆蓋範圍也擴展至包括藏文和孟加拉文。
此模型支援自動跨頁表格合併和跨頁段落標題識別，有效緩解了長文件解析中的內容碎片化問題。

Picture Source

Baidu

KJPro Technology Blog