全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

全球AI多模态竞速激战正酣，百度又放了个大招！

旗下新模型凭借0.9B参数量，在最新OmniDocBench V1.5榜单上拿下92.6分的成绩，获得综合性能全球第一。

它就是百度刚刚发布并在Day 1就开源的自研多模态文档解析模型PaddleOCR-VL。

（ps：0.9B参数量，对开发者的个人电脑真的炒鸡友好！）

发布16小时内，该模型就登顶了抱抱脸Trending全球第一。

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

非常抢眼的是，这款模型不仅得分高，它还在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面拿下SOTA，成为当前唯一在这四个维度全部排名第一的模型，刷新了全球OCR VL模型性能的新高线。

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

PaddleOCR-VL是一款面向复杂文档结构解析而设计的模型，是百度文心大模型体系下专注文档解析任务的轻量化衍生产品，具备极强的行业落地导向和平台集成能力，能轻松看懂令人头秃的PDF和图片。

敲黑板划重点：它真的能理解格式杂、长度长的文档中的逻辑结构、表格关系、数学表达等等。

和小红书等平台上，这个模型已经被大家先用起来并分享使用体验。

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

实用又好用，已经收获“哇”声一片。

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

在AI从感知到认知不断跃迁的当下，当模型不再只是识字工具，变成了具备结构感知与语义还原能力的利器，OCR在AI时代的意义也被彻底改写。

PaddleOCR-VL登顶的OmniDocBench V1.5是目前全球衡量文档解析能力最具权威性，也最具挑战性的评测体系之一。

它经清华大学、阿里达摩院、上海人工智能实验室等联合发布，由开源社区推动发展，主要面向真实场景中的PDF文档解析任务，包含1355页PDF，涵盖9种文档类型、4种布局类型和3种语言类型，以及文本、表格、公式、阅读顺序等多维任务。

在最新一期OmniDocBench V1.5榜单中，PaddleOCR-VL以92.6的综合得分问鼎榜首。

这顶全球桂冠背后，其实标志着该模型在模型结构设计、能力理解广度和任务适配性上的整体优势。

尤其值得注意的是，PaddleOCR-VL核心模型参数仅0.9B——以轻量之身越级打怪，正面超越了Gemini-2.5 Pro、GPT-4o等与其体量悬殊的巨型多模态大模型，同时击败了OCR领域的垂直模型dots.ocr、MinerU等等。

智慧生活更多>>