百度在光學字符識別(OCR)領域投下一顆重磅炸彈。該公司近日正式發佈並開源了端到端OCR模型Unlimited OCR,模型上線次日即在全球兩大主流開源社區同時登頂四項榜單,展現出極強的技術競爭力。

具體來看,Unlimited OCR在HuggingFace的全球模型總趨勢榜和多模態模型趨勢榜均位列第一,同時在GitHub的Daily Trending榜和Python榜也佔據榜首。這一成績意味著該模型不僅吸引了全球開發者的廣泛關注,其代碼與架構也獲得了技術社區的快速認可。

從技術參數看,Unlimited OCR專為長文檔解析場景設計,總參數規模為3B,但推理時激活參數僅約570M。這種設計在保持高精度的同時,大幅降低了實際部署的算力門檻,有利於在資源受限的環境中落地。在權威公開評測OmniDocBench v1.6基準測試中,Unlimited OCR取得了93.92% 的綜合分數,刷新了端到端OCR的最新紀錄。

這一突破並非孤立事件。當前,全球AI競賽正從通用大模型向更具體的垂直能力延伸,文檔智能正是其中關鍵一環。無論是金融領域的財報與合同解析、法律行業的卷宗數字化,還是醫療領域的病歷結構化,高精度OCR都是不可或缺的底層能力。百度選擇將Unlimited OCR完全開源,意味著大量中小企業和開發者可以直接調用或微調這一先進模型,無需從零開始訓練,這將顯著加速相關行業應用的開發進程。

值得注意的是,百度此次發佈正值國內AI產業加速追趕之際。就在近期,中國移動確認已設立Token辦公室,旨在打通“創造Token、輸送Token、應用Token”的全流程,打破內部多個二級部門“各管一攤”的局面。這反映出國內大型科技企業對AI能力整合與算力調度的重視程度正在升級。與此同時,月之暗面Kimi B端負責人黃震昕也在近期公開表示,行業雖有泡沫,但基本面紮實,下游AI應用需求爆發式增長,而上游算力供給持續緊張,導致API價格水漲船高。在這種背景下,像Unlimited OCR這樣追求高效推理、降低部署成本的開源模型,恰好契合了市場對高性價比AI解決方案的迫切需求。

從全球視角看,開源模型的競爭已進入白熱化階段。百度Unlimited OCR在HuggingFace和GitHub的同時登頂,不僅是一次技術指標的領先,更是中國AI企業在全球開源生態中話語權提升的縮影。對於關注AI產業的投資者而言,這一事件提示了文檔智能賽道的加速成熟,以及開源策略如何重塑底層模型層的競爭格局。