全球AI多模态竞速激战正酣,百度又放了个大招!
旗下新模型凭借0.9B参数量,在最新OmniDocBench V1.5榜单上拿下92.6分的成绩,获得综合性能全球第一。
它就是百度刚刚发布并在Day 1就开源的自研多模态文档解析模型PaddleOCR-VL。
(ps:0.9B参数量,对开发者的个人电脑真的炒鸡友好!)
发布16小时内,该模型就登顶了抱抱脸Trending全球第一。

非常抢眼的是,这款模型不仅得分高,它还在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面拿下SOTA,成为当前唯一在这四个维度全部排名第一的模型,刷新了全球OCR VL模型性能的新高线。

PaddleOCR-VL是一款面向复杂文档结构解析而设计的模型,是百度文心大模型体系下专注文档解析任务的轻量化衍生产品,具备极强的行业落地导向和平台集成能力,能轻松看懂令人头秃的PDF和图片。
敲黑板划重点:它真的能理解格式杂、长度长的文档中的逻辑结构、表格关系、数学表达等等。
和小红书等平台上,这个模型已经被大家先用起来并分享使用体验。

实用又好用,已经收获“哇”声一片。

在AI从感知到认知不断跃迁的当下,当模型不再只是识字工具,变成了具备结构感知与语义还原能力的利器,OCR在AI时代的意义也被彻底改写。
登顶OmniDocBench,四大核心能力全线SOTA
PaddleOCR-VL登顶的OmniDocBench V1.5是目前全球衡量文档解析能力最具权威性,也最具挑战性的评测体系之一。
它经清华大学、阿里达摩院、上海人工智能实验室等联合发布,由开源社区推动发展,主要面向真实场景中的PDF文档解析任务,包含1355页PDF,涵盖9种文档类型、4种布局类型和3种语言类型,以及文本、表格、公式、阅读顺序等多维任务。
在最新一期OmniDocBench V1.5榜单中,PaddleOCR-VL以92.6的综合得分问鼎榜首。
这顶全球桂冠背后,其实标志着该模型在模型结构设计、能力理解广度和任务适配性上的整体优势。
尤其值得注意的是,PaddleOCR-VL核心模型参数仅0.9B——以轻量之身越级打怪,正面超越了Gemini-2.5 Pro、GPT-4o等与其体量悬殊的巨型多模态大模型,同时击败了OCR领域的垂直模型dots.ocr、MinerU等等。