10月17日消息,HuggingFace官網(wǎng)顯示,百度昨晚發(fā)布的自研多模態(tài)文檔解析模型PaddleOCR-VL,發(fā)布20小時(shí)內(nèi)即登頂HuggingFace Trending全球第一。
據(jù)了解,該模型核心參數(shù)僅0.9B,輕量高效,能以極低計(jì)算開(kāi)銷(xiāo)精準(zhǔn)識(shí)別文本、手寫(xiě)漢字、表格、公式、圖表等復(fù)雜元素,支持109種語(yǔ)言。在權(quán)威榜單OmniBenchDoc V1.5中,它以92.6分獲綜合性能全球第一,四大核心能力全線(xiàn)SOTA,超越GPT-4o等模型,刷新OCR VL模型性能紀(jì)錄。
作為文心4.5衍生模型,PaddleOCR-VL融合了NaViT動(dòng)態(tài)分辨率視覺(jué)編碼器與ERNIE-4.5-0.3B語(yǔ)言模型,實(shí)現(xiàn)精度與效率雙突破。
















