CVPR 2026主會議於6月7日正式落下帷幕,本屆大會在獎項歸屬、數據基礎設施發佈以及人才格局三個方面釋放出強烈信號,勾勒出計算機視覺領域正在發生的深刻變革。

在閉幕式揭曉的五大獎項中,Google DeepMind、倫敦大學學院與牛津大學聯合團隊的D4RT摘得最佳論文獎。該研究聚焦4D動態場景重建,在重建質量與計算效率之間取得了突破性平衡。這一結果也標誌著牛津大學視覺幾何組(VGG)繼2025年憑VGGT獲獎後,成功實現CVPR最佳論文的“背靠背”兩連冠,顯示出該實驗室在三維視覺前沿的持續引領地位。

何愷明團隊的ResNet與YOLO檢測框架共同獲得Longuet-Higgins時間檢驗獎,表彰其長達十年以上的深遠影響。從2015年的殘差網絡到2016年的實時目標檢測框架,這兩項工作已成為計算機視覺工業級應用的基石,此次獲獎是對其歷史貢獻的最高級別學術認可。

微軟研究院與清華大學聯合提出的TRELLIS.2斬獲最佳學生論文獎。作為一個原生3D大模型,它能在17秒內生成超高精度的PBR(物理渲染)資產,將3D資產生成從“天級”壓縮至“秒級”,被普遍視為3D生成領域的新標杆。此外,SAM 3D獲最佳論文提名,NVIDIA的NitroGen獲最佳論文榮譽提名,分別代表了3D重建與圖像生成這兩個最具活力的子方向。

與獎項同樣引人注目的,是大規模數據集PhysInOne的發佈。該數據集包含200萬個視頻、超過15萬個動態3D場景,覆蓋力學、光學、流體、磁學等71種物理現象,並提供完整的2D、3D、4D及文本標註。學界將其稱為“視覺物理的ImageNet時刻”,因為它為世界模型和具身智能研究補上了一塊長期缺失的數據基石。大會數據同時顯示,視覺語言動作(VLA)相關論文數量同比增長5倍,世界模型論文增長3倍,具身智能正從單點探索進入系統性方法論構建階段。前AlphaFold2核心成員Simon Kohl的Keynote演講則進一步打通了從蛋白質設計到生成式AI的跨領域鏈路,讓與會者看到視覺模型與生命科學深度交匯的巨大潛力。

閉幕日最出圈的討論,卻來自一群中國本科生的驚豔表現。兩名本科生在半年內於CVPR、ICCV、ECCV等五大頂會上累計發表5篇論文;更有一位大三學生僅憑一塊老舊的泰坦(Titan)GPU完成研究,成功獲得本屆CVPR最佳學生論文提名。這一“低配逆襲”的故事經多家科技媒體發酵後迅速引爆網絡,在算力軍備競賽愈演愈烈的當下,擊中了學術界的集體共鳴點,也讓資源受限的高校學生看到了衝擊頂會的可能性。

與此同時,中國科技巨頭在本屆CVPR上的存在感同樣強烈。美團在現場正式開源了560B參數的LongCat MoE大模型,每次推理僅需激活約27B參數,在性能與效率間取得平衡,標誌著其AI戰略向基礎模型層的縱深延伸。字節跳動則提出了HiFi-Inpaint圖像修復新範式,著力解決高頻細節恢復難題。這些成果與微軟和清華的TRELLIS.2一起,共同構成了中國力量在CVPR舞臺上的多維度亮相。

從D4RT的4D重建到PhysInOne的物理數據集,從中國本科生的泰坦逆襲到LongCat的開源浪潮,CVPR 2026清晰地表明:計算機視覺正在從“理解圖像”的時代,大踏步邁向“理解世界”的時代。