CVPR 2026閉幕：D4RT獲最佳論文，中國本科生憑舊GPU引熱議

CVPR 2026最佳論文由Google DeepMind的D4RT獲得，牛津VGG連續兩年奪冠，中國本科生用老舊GPU獲提名。

CVPR 2026主會議於6月7日正式落下帷幕，本屆大會在獎項歸屬、資料基礎設施釋出以及人才格局三個方面釋放出強烈訊號，勾勒出計算機視覺領域正在發生的深刻變革。

在閉幕式揭曉的五大獎項中，Google DeepMind、倫敦大學學院與牛津大學聯合團隊的D4RT摘得最佳論文獎。該研究聚焦4D動態場景重建，在重建質量與計算效率之間取得了突破性平衡。這一結果也標誌著牛津大學視覺幾何組（VGG）繼2025年憑VGGT獲獎後，成功實現CVPR最佳論文的“背靠背”兩連冠，顯示出該實驗室在三維視覺前沿的持續引領地位。

何愷明團隊的ResNet與YOLO檢測框架共同獲得Longuet-Higgins時間檢驗獎，表彰其長達十年以上的深遠影響。從2015年的殘差網路到2016年的即時目標檢測框架，這兩項工作已成為計算機視覺工業級應用的基石，此次獲獎是對其歷史貢獻的最高級別學術認可。

微軟研究院與清華大學聯合提出的TRELLIS.2斬獲最佳學生論文獎。作為一個原生3D大模型，它能在17秒內生成超高精度的PBR（物理渲染）資產，將3D資產生成從“天級”壓縮至“秒級”，被普遍視為3D生成領域的新標杆。此外，SAM 3D獲最佳論文提名，NVIDIA的NitroGen獲最佳論文榮譽提名，分別代表了3D重建與影像生成這兩個最具活力的子方向。

與獎項同樣引人注目的，是大規模資料集PhysInOne的釋出。該資料集包含200萬個影片、超過15萬個動態3D場景，覆蓋力學、光學、流體、磁學等71種物理現象，並提供完整的2D、3D、4D及文本標註。學界將其稱為“視覺物理的ImageNet時刻”，因為它為世界模型和具身智慧研究補上了一塊長期缺失的資料基石。大會資料同時顯示，視覺語言動作（VLA）相關論文數量同比增長5倍，世界模型論文增長3倍，具身智慧正從單點探索進入系統性方法論構建階段。前AlphaFold2核心成員Simon Kohl的Keynote演講則進一步打通了從蛋白質設計到生成式AI的跨領域鏈路，讓與會者看到視覺模型與生命科學深度交匯的巨大潛力。

閉幕日最出圈的討論，卻來自一群中國本科生的驚豔表現。兩名本科生在半年內於CVPR、ICCV、ECCV等五大頂會上累計發表5篇論文；更有一位大三學生僅憑一塊老舊的泰坦（Titan）GPU完成研究，成功獲得本屆CVPR最佳學生論文提名。這一“低配逆襲”的故事經多家科技媒體發酵後迅速引爆網路，在算力軍備競賽愈演愈烈的當下，擊中了學術界的集體共鳴點，也讓資源受限的高校學生看到了衝擊頂會的可能性。

與此同時，中國科技巨頭在本屆CVPR上的存在感同樣強烈。美團在現場正式開源了560B引數的LongCat MoE大模型，每次推理僅需啟用約27B引數，在效能與效率間取得平衡，標誌著其AI戰略向基礎模型層的縱深延伸。字節跳動則提出了HiFi-Inpaint影像修復新範式，著力解決高頻細節恢復難題。這些成果與微軟和清華的TRELLIS.2一起，共同構成了中國力量在CVPR舞台上的多維度亮相。

從D4RT的4D重建到PhysInOne的物理資料集，從中國本科生的泰坦逆襲到LongCat的開源浪潮，CVPR 2026清晰地表明：計算機視覺正在從“理解影像”的時代，大踏步邁向“理解世界”的時代。

CVPR 2026閉幕：D4RT獲最佳論文，中國本科生憑舊GPU引熱議

延伸閱讀

相關深度報道

相關每日新聞