百度在光学字符识别(OCR)领域投下一颗重磅炸弹。该公司近日正式发布并开源了端到端OCR模型Unlimited OCR,模型上线次日即在全球两大主流开源社区同时登顶四项榜单,展现出极强的技术竞争力。

具体来看,Unlimited OCR在HuggingFace的全球模型总趋势榜和多模态模型趋势榜均位列第一,同时在GitHub的Daily Trending榜和Python榜也占据榜首。这一成绩意味着该模型不仅吸引了全球开发者的广泛关注,其代码与架构也获得了技术社区的快速认可。

从技术参数看,Unlimited OCR专为长文档解析场景设计,总参数规模为3B,但推理时激活参数仅约570M。这种设计在保持高精度的同时,大幅降低了实际部署的算力门槛,有利于在资源受限的环境中落地。在权威公开评测OmniDocBench v1.6基准测试中,Unlimited OCR取得了93.92% 的综合分数,刷新了端到端OCR的最新纪录。

这一突破并非孤立事件。当前,全球AI竞赛正从通用大模型向更具体的垂直能力延伸,文档智能正是其中关键一环。无论是金融领域的财报与合同解析、法律行业的卷宗数字化,还是医疗领域的病历结构化,高精度OCR都是不可或缺的底层能力。百度选择将Unlimited OCR完全开源,意味着大量中小企业和开发者可以直接调用或微调这一先进模型,无需从零开始训练,这将显著加速相关行业应用的开发进程。

值得注意的是,百度此次发布正值国内AI产业加速追赶之际。就在近期,中国移动确认已设立Token办公室,旨在打通“创造Token、输送Token、应用Token”的全流程,打破内部多个二级部门“各管一摊”的局面。这反映出国内大型科技企业对AI能力整合与算力调度的重视程度正在升级。与此同时,月之暗面Kimi B端负责人黄震昕也在近期公开表示,行业虽有泡沫,但基本面扎实,下游AI应用需求爆发式增长,而上游算力供给持续紧张,导致API价格水涨船高。在这种背景下,像Unlimited OCR这样追求高效推理、降低部署成本的开源模型,恰好契合了市场对高性价比AI解决方案的迫切需求。

从全球视角看,开源模型的竞争已进入白热化阶段。百度Unlimited OCR在HuggingFace和GitHub的同时登顶,不仅是一次技术指标的领先,更是中国AI企业在全球开源生态中话语权提升的缩影。对于关注AI产业的投资者而言,这一事件提示了文档智能赛道的加速成熟,以及开源策略如何重塑底层模型层的竞争格局。