PaddleOCR-VL-1.5 是 PaddleOCR-VL 的下一代高級模型,在 OmniDocBench v1.5 上取得了 94.5% 的全新最先進準確率。
為了嚴格評估其對真實世界物理失真(包括掃描偽影、傾斜、變形、螢幕拍攝和光照)的穩健性,研發團隊提出 Real5-OmniDocBench 基準測試,實驗結果表明,該增強模型在新建的基準測試中達到了 SOTA 性能。
PaddleOCR-VL-1.5 的主要功能
- PaddleOCR-VL-1.5 的參數大小為 0.9B,在OmniDocBench v1.5 測試中達到了 94.5% 的準確率,超越了之前的最高版本 PaddleOCR-VL。表格、公式和文字辨識方面均有顯著提升。
- 它引入了一種創新的文檔解析方法,支援不規則形狀定位,從而能夠在傾斜和扭曲的文檔條件下實現精確的多邊形檢測。在掃描、傾斜、扭曲、螢幕拍攝和光照等五個真實場景下的評估表明,其性能優於主流的開源和專有模型。
- 該模型引入了文本定位(文本行定位和識別)以及海豹識別,所有相應的指標都在各自的任務中達到了新的 SOTA 結果。
- PaddleOCR-VL-1.5進一步增強了其在特殊情境和多語言辨識方面的能力。對於罕見字元、古代文本、多語言表格、底線和複選框的識別性能得到提升,語言覆蓋範圍也擴展至包括藏文和孟加拉文。
- 此模型支援自動跨頁表格合併和跨頁段落標題識別,有效緩解了長文件解析中的內容碎片化問題。
Picture Source
Baidu

留言
張貼留言