是什麼
Transformer 是 2017 年由一篇題為《Attention Is All You Need》的論文提出的神經網絡架構。它的核心是「自注意力」(self-attention)機制,讓模型在處理一段序列時,能夠同時衡量每個位置與其他所有位置的關聯程度。相比之前的循環網絡,這種結構更易於並行計算,也更擅長捕捉長距離依賴。
為什麼重要
Transformer 的可並行特性讓它能充分利用 GPU 的算力,從而支撐起參數規模不斷擴大的模型訓練。如今幾乎所有主流大語言模型都建立在這一架構之上,它也被推廣到圖像、音頻、蛋白質結構等多種領域。可以說,Transformer 是引發本輪大模型浪潮的關鍵技術起點之一。
與五層蛋糕的關係
Transformer 位於「五層蛋糕」的「模型」層,是這一層的底層技術範式。它的可並行特性,正是「芯片」層 GPU 算力得以高效轉化為模型能力的橋樑;而它催生的強大模型,又為上方「應用」層的各類產品提供了通用能力底座。可以說,它把芯片的算力優勢順暢地傳導到了模型與應用。