百度開源OCR模型Unlimited OCR四榜登頂

百度在光學字符識別（OCR）領域投下一顆重磅炸彈。該公司近日正式發佈並開源了端到端OCR模型Unlimited OCR，模型上線次日即在全球兩大主流開源社區同時登頂四項榜單，展現出極強的技術競爭力。

具體來看，Unlimited OCR在HuggingFace的全球模型總趨勢榜和多模態模型趨勢榜均位列第一，同時在GitHub的Daily Trending榜和Python榜也佔據榜首。這一成績意味著該模型不僅吸引了全球開發者的廣泛關注，其代碼與架構也獲得了技術社區的快速認可。

從技術參數看，Unlimited OCR專為長文檔解析場景設計，總參數規模為3B，但推理時激活參數僅約570M。這種設計在保持高精度的同時，大幅降低了實際部署的算力門檻，有利於在資源受限的環境中落地。在權威公開評測OmniDocBench v1.6基準測試中，Unlimited OCR取得了93.92% 的綜合分數，刷新了端到端OCR的最新紀錄。

這一突破並非孤立事件。當前，全球AI競賽正從通用大模型向更具體的垂直能力延伸，文檔智能正是其中關鍵一環。無論是金融領域的財報與合同解析、法律行業的卷宗數字化，還是醫療領域的病歷結構化，高精度OCR都是不可或缺的底層能力。百度選擇將Unlimited OCR完全開源，意味著大量中小企業和開發者可以直接調用或微調這一先進模型，無需從零開始訓練，這將顯著加速相關行業應用的開發進程。

值得注意的是，百度此次發佈正值國內AI產業加速追趕之際。就在近期，中國移動確認已設立Token辦公室，旨在打通“創造Token、輸送Token、應用Token”的全流程，打破內部多個二級部門“各管一攤”的局面。這反映出國內大型科技企業對AI能力整合與算力調度的重視程度正在升級。與此同時，月之暗面Kimi B端負責人黃震昕也在近期公開表示，行業雖有泡沫，但基本面紮實，下游AI應用需求爆發式增長，而上游算力供給持續緊張，導致API價格水漲船高。在這種背景下，像Unlimited OCR這樣追求高效推理、降低部署成本的開源模型，恰好契合了市場對高性價比AI解決方案的迫切需求。

從全球視角看，開源模型的競爭已進入白熱化階段。百度Unlimited OCR在HuggingFace和GitHub的同時登頂，不僅是一次技術指標的領先，更是中國AI企業在全球開源生態中話語權提升的縮影。對於關注AI產業的投資者而言，這一事件提示了文檔智能賽道的加速成熟，以及開源策略如何重塑底層模型層的競爭格局。

百度開源OCR模型Unlimited OCR四榜登頂

延伸閱讀

相關深度報道

相關每日新聞