百度开源3B端到端OCR 五天github star破万,刷新长文档解析记录
百度开源了一个文字识别工具,一口气读完几十页PDF不卡壳、不乱码,准确率比千亿大模型还高,5天GitHub star破万。
你有没有遇到过这种情况:手里有一份几十页的PDF合同、论文或者扫描件,想把它转成可以复制粘贴的文字。但现在的OCR工具,要么一页一页识别慢得要死,要么读到后面就开始乱码、漏字。总之,长文档就是不行。
最近,百度刚开源了一个项目叫做Unlimited OCR(github.com/baidu/Unlimited-OCR),GitHub发布五天就破了一万star,HuggingFace和GitHub四个榜单同时第一。经过测试,你把一份40页的PDF丢进去,它从头到尾一次性读完,转出来的文字几乎和原文一模一样,这个表现还是很不错的。能做到这样的效果,它比其他OCR工具到底强在哪?
第一,体积小但识别准。
这个模型「脑容量」只有3B(30亿参数),实测干活时只用到5亿。现在主流大模型动不动几千亿参数,它连人家的零头都不到。但就这么个「小不点」,在权威测试上拿了93.92分,比通义千问235B大模型、谷歌Gemini 2.5 Pro都高。
第二,读长文档不失忆。
这是它真正厉害的地方。以前的OCR模型为什么读长文档会崩,因为每识别一个字,它都要记住前面识别过的所有字。文档越长,要记的东西越多,内存越撑不住,速度越来越慢,最后要么卡死要么乱码。所以大家只能一页一页来,读完一页清空记忆,再读下一页,最后再手动拼起来。
Unlimited OCR这次换了个思路。它的设计逻辑模仿了人抄书的过程:原始文档图像文件一直都在,但它只保留最近一小段识别结果作为「短期记忆」,就像你抄书一样,只会记得最近的几句话,前面的全都忘掉。这样一来,不管文档多长,占用的内存始终保持不变。读10页和读100页,速度变得一样快。