DAILY LESSON / 2026-07-01

百度开源3B端到端OCR 五天github star破万，刷新长文档解析记录

百度开源了一个文字识别工具，一口气读完几十页PDF不卡壳、不乱码，准确率比千亿大模型还高，5天GitHub star破万。

AIAI模型软件工具

你有没有遇到过这种情况：手里有一份几十页的PDF合同、论文或者扫描件，想把它转成可以复制粘贴的文字。但现在的OCR工具，要么一页一页识别慢得要死，要么读到后面就开始乱码、漏字。总之，长文档就是不行。

最近，百度刚开源了一个项目叫做Unlimited OCR（github.com/baidu/Unlimited-OCR），GitHub发布五天就破了一万star，HuggingFace和GitHub四个榜单同时第一。经过测试，你把一份40页的PDF丢进去，它从头到尾一次性读完，转出来的文字几乎和原文一模一样，这个表现还是很不错的。能做到这样的效果，它比其他OCR工具到底强在哪？

第一，体积小但识别准。

这个模型「脑容量」只有3B（30亿参数），实测干活时只用到5亿。现在主流大模型动不动几千亿参数，它连人家的零头都不到。但就这么个「小不点」，在权威测试上拿了93.92分，比通义千问235B大模型、谷歌Gemini 2.5 Pro都高。

第二，读长文档不失忆。

这是它真正厉害的地方。以前的OCR模型为什么读长文档会崩，因为每识别一个字，它都要记住前面识别过的所有字。文档越长，要记的东西越多，内存越撑不住，速度越来越慢，最后要么卡死要么乱码。所以大家只能一页一页来，读完一页清空记忆，再读下一页，最后再手动拼起来。

Unlimited OCR这次换了个思路。它的设计逻辑模仿了人抄书的过程：原始文档图像文件一直都在，但它只保留最近一小段识别结果作为「短期记忆」，就像你抄书一样，只会记得最近的几句话，前面的全都忘掉。这样一来，不管文档多长，占用的内存始终保持不变。读10页和读100页，速度变得一样快。

百度开源3B端到端OCR 五天github star破万，刷新长文档解析记录

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

一个插件，让 AI 智能体住在你的网页

OpenAI 一口气发三款语音模型

Github Copilot：国内直连，Claude Opus 随便用，还不按 Token 计费

谷歌AI首次给真人看病，诊断准确率比肩医生