Transformer 架構 · 百科

是什麼

Transformer 是 2017 年由一篇題為《Attention Is All You Need》的論文提出的神經網路架構。它的核心是「自注意力」(self-attention)機制，讓模型在處理一段序列時，能夠同時衡量每個位置與其他所有位置的關聯程度。相比之前的迴圈網路，這種結構更易於平行計算，也更擅長捕捉長距離依賴。

為什麼重要

Transformer 的可並行特性讓它能充分利用 GPU 的算力，從而支撐起引數規模不斷擴大的模型訓練。如今幾乎所有主流大語言模型都建立在這一架構之上，它也被推廣到影像、音訊、蛋白質結構等多種領域。可以說，Transformer 是引發本輪大模型浪潮的關鍵技術起點之一。

在 AI 產業鏈中的位置

Transformer 位於 AI 產業鏈的模型層，是這一層的底層技術範式。它的可並行特性，正是晶片層 GPU 算力得以高效轉化為模型能力的橋樑；而它催生的強大模型，又為上方應用層的各類產品提供了通用能力底座。可以說，它把晶片的算力優勢順暢地傳導到了模型與應用。

常見問題

Transformer是哪一年提出的？

Transformer是2017年由一篇題為《Attention Is All You Need》的論文提出的。

Transformer的核心機制是什麼？

它的核心是「自注意力」(self-attention)機制，讓模型在處理序列時能同時衡量每個位置與其他所有位置的關聯程度。

Transformer比迴圈網路好在哪？

Transformer更易於平行計算，也更擅長捕捉長距離依賴，而迴圈網路在這方面較弱。

哪些模型是基於Transformer架構的？

幾乎所有主流大語言模型都建立在這一架構之上，它也被推廣到影像、音訊、蛋白質結構等多種領域。

Transformer在AI產業鏈裡屬於哪一層？

Transformer位於AI產業鏈的模型層，是這一層的底層技術範式，把晶片的算力優勢傳導到模型與應用。

是什麼

為什麼重要

在 AI 產業鏈中的位置

常見問題

參考來源

相關深度報道

相關新聞

相關條目