首頁 › 數據 › AI 模型規模趨勢 過去十幾年,AI 之所以突飛猛進,底層是三件東西在指數級變大:訓練用的算力、模型的參數量、喂進去的數據量。
這也是「規模定律 」和這輪 AI 資本開支狂飆的底層邏輯。
下圖收錄了 527 個知名 AI 模型——單看訓練算力,從最早的神經網絡到當下的前沿大模型,已增長約 25 個數量級(1025 倍) 。 以下只陳述已公開的客觀數據,不預測、不構成任何投資建議。
訓練算力趨勢 訓練一個模型消耗的總計算量(浮點運算次數,10^15 FLOP = 1 petaFLOP)。縱軸為對數刻度——每上一格代表大 10 倍。
最新的前沿模型訓練算力已達約 5.0×10¹¹ petaFLOP 量級。
10⁻¹² 10⁻⁸ 10⁻⁴ 1 10⁴ 10⁸ 10¹² 1960 1980 2000 2020 發佈年份 訓練算力(petaFLOP,對數軸) Theseus|1950|4.0×10^-14 petaFLOP Perceptron Mark I|1957|6.9×10^-10 petaFLOP Pandemonium (morse)|1959|6.0×10^-7 petaFLOP Samuel Neural Checkers|1959|4.3×10^-7 petaFLOP Perceptron (1960)|1960|7.2×10^-7 petaFLOP ADALINE|1960|6.6×10^-12 petaFLOP Linear Decision Functions|1962|1.6×10^-9 petaFLOP Print Recognition Logic|1963|2.2×10^-8 petaFLOP Heuristic Reinforcement Learning|1965|1.1×10^-9 petaFLOP LTE speaker verification system|1966|1.1×10^-7 petaFLOP Cognitron|1975|5.2×10^-9 petaFLOP Neocognitron|1980|2.7×10^-7 petaFLOP ASE+ACE|1983|3.2×10^-7 petaFLOP Distributed representation NN|1986|3.9×10^-7 petaFLOP MLP with back-propagation|1986|6.7×10^-7 petaFLOP NetTalk (dictionary)|1987|2.8×10^-5 petaFLOP NetTalk (transcription)|1987|2.8×10^-5 petaFLOP Translation-invariant MLP|1987|1.8×10^-5 petaFLOP MLN-ASR|1988|3.0×10^-7 petaFLOP Invariant image recognition|1989|2.7×10^-5 petaFLOP Handwritten digit recognition network|1989|1.8×10^-4 petaFLOP Speaker-independent vowel classification|1989|7.5×10^-6 petaFLOP Zip CNN|1989|1.5×10^-3 petaFLOP NETtalk reimplementation|1990|3.6×10^-5 petaFLOP Bankruptcy-NN|1990|3.1×10^-6 petaFLOP SexNet compression|1990|7.9×10^-5 petaFLOP Weight Decay|1991|7.6×10^-5 petaFLOP TD-Gammon|1992|1.8×10^-2 petaFLOP Cancer drug mechanism prediction|1992|5.4×10^-8 petaFLOP Siamese-TDNN|1993|1.3×10^-2 petaFLOP ANN Eye Tracker|1993|1.7×10^-5 petaFLOP Ceramic-MLP|1994|4.5×10^-6 petaFLOP JPMAX|1994|8.1×10^-8 petaFLOP Mixture of linear models|1994|4.5×10^-4 petaFLOP NeuroChess|1994|8.6×10^-4 petaFLOP Predictive Coding NN|1994|1.9×10^-2 petaFLOP LISSOM|1995|2.0×10^-4 petaFLOP MUSIC perceptron|1996|8.8×10^-4 petaFLOP System 11|1996|2.6×10^-5 petaFLOP SOM-CNN|1997|3.1×10^-5 petaFLOP LSTM|1997|3.2×10^-2 petaFLOP LeNet-5|1998|2.8×10^-3 petaFLOP RECONTRA-categorized|1999|8.0×10^-3 petaFLOP RECONTRA-uncategorized|1999|3.9×10^-3 petaFLOP Neural LM|2000|6.3×10^0 petaFLOP PoE MNIST|2000|5.2×10^-2 petaFLOP Decision tree (classification)|2001|6.3×10^-2 petaFLOP NPLM (AP News)|2003|1.7×10^0 petaFLOP NPLM (Brown)|2003|1.3×10^-1 petaFLOP Invariant CNN|2004|9.7×10^-4 petaFLOP LMICA|2004|2.8×10^0 petaFLOP Hierarchical LM|2005|1.2×10^-1 petaFLOP RankNet|2005|3.5×10^-3 petaFLOP SVM-CNN|2006|7.4×10^-1 petaFLOP KN-LM|2007|7.7×10^2 petaFLOP SB-LM|2007|1.5×10^3 petaFLOP GNN|2008|1.6×10^-6 petaFLOP GPU DBNs|2009|1.0×10^0 petaFLOP Two Stage Feature Extraction (MNIST)|2009|2.1×10^-2 petaFLOP LCNP LabelMe|2009|3.3×10^0 petaFLOP LCNP MNIST|2009|4.2×10^0 petaFLOP LCNP NORB|2009|2.5×10^0 petaFLOP Feedforward NN|2010|3.5×10^-1 petaFLOP iCCCP|2010|1.1×10^0 petaFLOP Pooling CNN (Caltech 101)|2010|1.2×10^0 petaFLOP Pooling CNN (NORB)|2010|1.5×10^0 petaFLOP RNN LM|2010|5.4×10^1 petaFLOP Deep Autoencoders|2011|3.7×10^1 petaFLOP High Performance CNN (NORB)|2011|2.6×10^1 petaFLOP CNN Committee (MNIST)|2011|5.2×10^1 petaFLOP CNN Committee (NIST)|2011|2.6×10^1 petaFLOP CNN committee (traffic sign)|2011|9.9×10^-1 petaFLOP Dropout (CIFAR)|2012|4.3×10^0 petaFLOP Dropout (ImageNet)|2012|2.7×10^2 petaFLOP Dropout (MNIST)|2012|6.0×10^0 petaFLOP Unsupervised High-level Feature Learner|2012|6.0×10^2 petaFLOP LSTM LM|2012|1.7×10^1 petaFLOP AlexNet|2012|4.7×10^2 petaFLOP DNN EM segmentation|2012|4.8×10^2 petaFLOP DistBelief Speech|2012|3.1×10^2 petaFLOP DistBelief NNLM|2013|2.6×10^3 petaFLOP ReLU-Speech|2013|1.3×10^2 petaFLOP Hierarchical Scene Labeling (Stanford Background)|2013|2.4×10^2 petaFLOP RCTM|2013|9.3×10^0 petaFLOP RNTN|2013|1.4×10^1 petaFLOP Word2Vec (large)|2013|3.9×10^1 petaFLOP Visualizing CNNs|2013|5.3×10^2 petaFLOP TransE|2013|1.3×10^3 petaFLOP DQN|2013|2.9×10^0 petaFLOP Image generation|2013|4.7×10^-1 petaFLOP GANs|2014|5.2×10^2 petaFLOP SPPNet|2014|3.4×10^3 petaFLOP SmooCT|2014|6.9×10^1 petaFLOP ACF-WIDER|2014|7.6×10^-2 petaFLOP RNNsearch-50*|2014|1.6×10^3 petaFLOP VGG16|2014|1.2×10^4 petaFLOP VGG19|2014|1.1×10^4 petaFLOP Seq2Seq LSTM|2014|5.6×10^4 petaFLOP SPN-4+KN5|2014|4.4×10^1 petaFLOP GoogLeNet / InceptionV1|2014|1.5×10^3 petaFLOP TA-CNN|2014|1.1×10^1 petaFLOP SNM-skip|2014|3.0×10^5 petaFLOP Fractional Max-Pooling|2014|1.0×10^2 petaFLOP ADAM (CIFAR-10)|2014|6.3×10^-1 petaFLOP MSRA (C, PReLU)|2015|2.4×10^4 petaFLOP genCNN + dyn eval|2015|3.4×10^1 petaFLOP TC-DNN-BLSTM-DNN|2015|1.9×10^2 petaFLOP U-Net|2015|5.1×10^1 petaFLOP DCNN|2015|4.8×10^2 petaFLOP AlphaGo Fan|2015|3.8×10^5 petaFLOP SAF R-CNN|2015|1.2×10^4 petaFLOP Inception v3|2015|1.0×10^5 petaFLOP ResNet-101 (ImageNet)|2015|7.0×10^3 petaFLOP ResNet-152 (ImageNet)|2015|1.0×10^4 petaFLOP Variational (untied weights, MC) LSTM (Large)|2015|5.9×10^0 petaFLOP AlphaGo Lee|2016|1.9×10^6 petaFLOP Named Entity Recognition model|2016|9.7×10^1 petaFLOP R-FCN|2016|7.2×10^2 petaFLOP ResNet-200|2016|3.0×10^4 petaFLOP GNMT|2016|6.6×10^6 petaFLOP Pointer Sentinel-LSTM (medium)|2016|7.5×10^0 petaFLOP Xception|2016|4.4×10^5 petaFLOP SPIDER2|2016|1.8×10^1 petaFLOP BIDAF|2016|3.5×10^3 petaFLOP NAS with base 8 and shared embeddings|2016|1.1×10^1 petaFLOP NASv3 (CIFAR-10)|2016|2.2×10^6 petaFLOP VD-LSTM+REAL Large|2016|2.1×10^1 petaFLOP ResNeXt-101 (64×4d)|2016|1.2×10^4 petaFLOP PolyNet|2016|6.4×10^4 petaFLOP HR-ResNet101|2016|7.1×10^3 petaFLOP EnhanceNet|2016|1.3×10^2 petaFLOP DeepStack|2017|1.5×10^4 petaFLOP MoE-Multi|2017|9.4×10^4 petaFLOP Transformer (2017)|2017|7.4×10^3 petaFLOP DeepLoc|2017|5.8×10^2 petaFLOP JFT|2017|8.4×10^5 petaFLOP ConvS2S (ensemble of 8 models)|2017|5.6×10^4 petaFLOP AWD-LSTM - 3-layer LSTM (tied) + continuous cache pointer (WT2)|2017|3.0×10^2 petaFLOP RetinaNet-R101|2017|2.1×10^3 petaFLOP OpenAI TI7 DOTA 1v1|2017|6.1×10^5 petaFLOP EI-REHN-1000D|2017|1.1×10^1 petaFLOP Libratus|2017|5.5×10^5 petaFLOP GL-LWGC-AWD-MoS-LSTM + dynamic evaluation (WT2)|2017|4.6×10^2 petaFLOP PyramidNet|2017|2.3×10^0 petaFLOP ISS|2017|3.4×10^0 petaFLOP AWD-LSTM+WT+Cache+IOG (WT2)|2017|3.2×10^0 petaFLOP AlphaGo Zero|2017|6.5×10^5 petaFLOP AlphaGo Master|2017|3.4×10^5 petaFLOP Fraternal dropout + AWD-LSTM 3-layer (WT2)|2017|3.1×10^2 petaFLOP AWD-LSTM-MoS + dynamic evaluation (WT2, 2017)|2017|3.4×10^3 petaFLOP AlphaZero|2017|1.1×10^5 petaFLOP ELMo|2018|3.3×10^0 petaFLOP QRNN|2018|6.9×10^2 petaFLOP IMPALA|2018|1.7×10^5 petaFLOP 4 layer QRNN (h=2500)|2018|5.9×10^2 petaFLOP YOLOv3|2018|1.3×10^4 petaFLOP Dropout-LSTM+Noise(Bernoulli) (WT2)|2018|1.3×10^2 petaFLOP ResNeXt-101 32x48d|2018|8.7×10^6 petaFLOP aLSTM(depth-2)+RecurrentPolicy (WT2)|2018|7.3×10^1 petaFLOP GPT-1|2018|1.8×10^4 petaFLOP FTW (For The Win)|2018|3.5×10^4 petaFLOP Big-Little Net|2018|2.5×10^2 petaFLOP Big-Little Net (speech)|2018|4.3×10^2 petaFLOP Big Transformer for Back-Translation|2018|4.8×10^5 petaFLOP (ensemble): AWD-LSTM-DOC (fin) × 5 (WT2)|2018|6.7×10^2 petaFLOP Transformer + Simple Recurrent Unit|2018|1.1×10^4 petaFLOP LSTM+NeuralCache|2018|9.8×10^-1 petaFLOP Transformer (Adaptive Input Embeddings) WT103|2018|4.5×10^4 petaFLOP BERT-Large|2018|2.9×10^5 petaFLOP TrellisNet|2018|2.8×10^3 petaFLOP Mesh-TensorFlow Transformer 2.9B (translation)|2018|6.8×10^4 petaFLOP Mesh-TensorFlow Transformer 4.9B (language)|2018|1.6×10^5 petaFLOP Fine-tuned-AWD-LSTM-DOC (fin)|2018|5.2×10^1 petaFLOP Multi-cell LSTM|2018|2.0×10^0 petaFLOP StyleGAN|2018|3.9×10^1 petaFLOP Transformer-XL (257M)|2019|3.8×10^5 petaFLOP Hanabi 4 player|2019|4.3×10^3 petaFLOP GPT-2 (1.5B)|2019|1.9×10^6 petaFLOP KataGo|2019|2.3×10^4 petaFLOP SciBERT|2019|8.9×10^4 petaFLOP Cross-lingual alignment|2019|2.6×10^3 petaFLOP WeNet (Penn Treebank)|2019|7.3×10^2 petaFLOP BERT-Large-CAS (PTB+WT2+WT103)|2019|1.5×10^5 petaFLOP MuseNet|2019|2.2×10^5 petaFLOP AWD-LSTM-DRILL + dynamic evaluation† (WT2)|2019|4.1×10^2 petaFLOP DLRM-2020|2019|4.0×10^3 petaFLOP XLNet|2019|6.2×10^6 petaFLOP Transformer-XL Large + Phrase Induction|2019|3.8×10^5 petaFLOP AWD-LSTM + MoS + Partial Shuffled|2019|3.2×10^2 petaFLOP RoBERTa Large|2019|8.5×10^6 petaFLOP Pluribus|2019|6.6×10^1 petaFLOP trRosetta|2019|3.8×10^4 petaFLOP UDSMProt|2019|6.4×10^2 petaFLOP Megatron-BERT|2019|2.2×10^7 petaFLOP Megatron-LM (1.2B)|2019|1.1×10^6 petaFLOP Megatron-LM (8.3B)|2019|9.1×10^6 petaFLOP AlphaX-1|2019|8.9×10^2 petaFLOP DistilBERT|2019|1.2×10^4 petaFLOP T5-11B|2019|3.3×10^7 petaFLOP T5-3B|2019|9.0×10^6 petaFLOP AlphaStar|2019|1.1×10^8 petaFLOP Base LM + kNN LM + Continuous Cache|2019|3.1×10^4 petaFLOP XLM-RoBERTa|2019|2.1×10^7 petaFLOP CamemBERT|2019|8.3×10^5 petaFLOP Noisy Student (L2)|2019|2.6×10^7 petaFLOP Sandwich Transformer|2019|2.4×10^4 petaFLOP MuZero|2019|4.8×10^4 petaFLOP Transformer-XL DeFINE (141M)|2019|1.7×10^3 petaFLOP MMLSTM (PTB)|2019|5.8×10^1 petaFLOP MMLSTM (WT-2)|2019|1.9×10^2 petaFLOP OpenAI Five|2019|6.7×10^7 petaFLOP OpenAI Five Rerun|2019|1.3×10^7 petaFLOP DD-PPO|2019|7.8×10^5 petaFLOP AlphaFold|2020|1.0×10^5 petaFLOP ContextNet + Noisy Student|2020|8.2×10^6 petaFLOP Meena|2020|1.1×10^8 petaFLOP TaLK Convolution|2020|2.7×10^4 petaFLOP ALBERT-xxlarge|2020|2.4×10^6 petaFLOP FFN SwiGLU|2020|3.4×10^4 petaFLOP Turing-NLG|2020|1.6×10^7 petaFLOP Feedback Transformer|2020|7.7×10^3 petaFLOP TransformerXL + spectrum control|2020|2.6×10^4 petaFLOP Tensor-Transformer(1core)+PN (WT103)|2020|1.6×10^3 petaFLOP ELECTRA|2020|3.1×10^6 petaFLOP MetNet|2020|9.5×10^3 petaFLOP Once for All|2020|6.2×10^5 petaFLOP UnifiedQA|2020|1.7×10^4 petaFLOP DETR|2020|4.0×10^5 petaFLOP GPT-3 175B (davinci)|2020|3.1×10^8 petaFLOP GShard (dense)|2020|4.8×10^7 petaFLOP DeLighT|2020|3.8×10^3 petaFLOP ERNIE-GEN (large)|2020|2.0×10^5 petaFLOP ProBERTa|2020|9.7×10^3 petaFLOP LUKE|2020|1.8×10^7 petaFLOP Conformer + Wav2vec 2.0 + Noisy Student|2020|7.6×10^6 petaFLOP German ELECTRA Large|2020|1.4×10^6 petaFLOP mT5-XXL|2020|8.2×10^7 petaFLOP ViT-Huge/14|2020|4.3×10^6 petaFLOP wave2vec 2.0 LARGE|2020|3.9×10^6 petaFLOP KEPLER|2020|1.7×10^6 petaFLOP AlphaFold 2|2020|3.0×10^6 petaFLOP CPM-Large|2020|2.6×10^5 petaFLOP ESM1b|2020|5.1×10^6 petaFLOP CT-MoS (WT2)|2020|5.4×10^2 petaFLOP DensePhrases|2020|2.1×10^3 petaFLOP ERNIE-Doc (247M)|2021|3.0×10^4 petaFLOP CLIP (ViT L/14@336px)|2021|1.1×10^7 petaFLOP DALL-E|2021|4.7×10^7 petaFLOP Switch|2021|8.2×10^7 petaFLOP DeiT-B|2021|7.9×10^4 petaFLOP DLWP|2021|5.7×10^3 petaFLOP MSA Transformer|2021|5.5×10^6 petaFLOP SRU++ Large|2021|2.1×10^4 petaFLOP Meta Pseudo Labels|2021|4.8×10^7 petaFLOP Generative BST|2021|1.4×10^7 petaFLOP M6-T|2021|5.5×10^6 petaFLOP PLUG|2021|3.6×10^7 petaFLOP ProtBERT-BFD|2021|3.9×10^7 petaFLOP ProtT5-XL-U50|2021|1.9×10^7 petaFLOP ADM|2021|6.2×10^6 petaFLOP MedBERT|2021|9.5×10^3 petaFLOP ByT5-XXL|2021|8.1×10^7 petaFLOP CogView|2021|2.7×10^7 petaFLOP Transformer local-attention (NesT-B)|2021|2.4×10^4 petaFLOP ViT-G/14|2021|5.8×10^7 petaFLOP ALIGN|2021|2.6×10^7 petaFLOP CoAtNet|2021|4.3×10^7 petaFLOP DeBERTa|2021|2.6×10^7 petaFLOP Denoising Diffusion Probabilistic Models (LSUN Bedroom)|2021|7.8×10^4 petaFLOP EMDR|2021|1.9×10^6 petaFLOP EfficientNetV2-XL|2021|9.6×10^4 petaFLOP StyleGAN3-R|2021|2.4×10^6 petaFLOP StyleGAN3-T|2021|1.7×10^6 petaFLOP Fold2Seq|2021|1.4×10^2 petaFLOP Adaptive Input Transformer + RD|2021|8.6×10^4 petaFLOP Codex|2021|7.3×10^7 petaFLOP ERNIE 3.0|2021|2.3×10^7 petaFLOP GOAT|2021|2.4×10^7 petaFLOP HuBERT|2021|5.5×10^6 petaFLOP SEER|2021|1.8×10^7 petaFLOP YOLOX-X|2021|6.3×10^5 petaFLOP Jurassic-1-Jumbo|2021|3.7×10^8 petaFLOP Zidong Taichu|2021|8.0×10^5 petaFLOP DNABERT|2021|1.1×10^5 petaFLOP XLMR-XXL|2021|3.4×10^7 petaFLOP FLAN 137B|2021|2.1×10^9 petaFLOP PermuteFormer|2021|2.8×10^3 petaFLOP HyperCLOVA 204B|2021|2.0×10^8 petaFLOP PLATO-XL|2021|9.9×10^6 petaFLOP Turing ULRv5|2021|2.9×10^7 petaFLOP AlphaFold-Multimer|2021|4.4×10^6 petaFLOP Megatron-Turing NLG 530B|2021|8.6×10^8 petaFLOP Yuan 1.0|2021|3.5×10^8 petaFLOP base LM+GNN+kNN|2021|5.3×10^4 petaFLOP CodeT5-base|2021|1.6×10^6 petaFLOP Projected GAN|2021|1.1×10^4 petaFLOP S4|2021|7.8×10^4 petaFLOP Masked Autoencoders ViT-H|2021|4.6×10^5 petaFLOP BASIC-L|2021|4.1×10^7 petaFLOP Swin Transformer V2 (SwinV2-G)|2021|1.1×10^6 petaFLOP Florence|2021|4.8×10^7 petaFLOP NÜWA|2021|7.3×10^6 petaFLOP Gopher (280B)|2021|6.3×10^8 petaFLOP Student of Games|2021|3.7×10^7 petaFLOP GLaM|2021|3.6×10^8 petaFLOP Contriever|2021|1.6×10^5 petaFLOP XGLM-7.5B|2021|2.3×10^7 petaFLOP ERNIE 3.0 Titan|2021|1.0×10^9 petaFLOP Detic|2022|2.3×10^4 petaFLOP InstructGPT 175B|2022|3.2×10^8 petaFLOP AlphaCode|2022|2.4×10^8 petaFLOP RETRO-7B|2022|1.7×10^7 petaFLOP GPT-NeoX-20B|2022|9.3×10^7 petaFLOP LaMDA|2022|3.6×10^8 petaFLOP ProteinBERT|2022|6.5×10^4 petaFLOP ST-MoE|2022|2.9×10^8 petaFLOP FourCastNet|2022|3.5×10^5 petaFLOP PolyCoder|2022|1.1×10^6 petaFLOP Statement Curriculum Learning|2022|1.8×10^7 petaFLOP ViT-G (model soup)|2022|3.4×10^6 petaFLOP |2022|2.6×10^9 petaFLOP Make-A-Scene|2022|6.4×10^6 petaFLOP Segatron-XL large, M=384 + HCP|2022|2.7×10^4 petaFLOP Chinchilla|2022|5.8×10^8 petaFLOP PaLM (540B)|2022|2.5×10^9 petaFLOP BERT-RBP|2022|1.4×10^5 petaFLOP DALL·E 2|2022|3.4×10^8 petaFLOP Sparse all-MLP|2022|5.3×10^5 petaFLOP Stable Diffusion (LDM-KL-8-G)|2022|5.0×10^7 petaFLOP Flamingo|2022|2.2×10^8 petaFLOP OPT-175B|2022|4.3×10^8 petaFLOP UL2|2022|1.2×10^8 petaFLOP Gato|2022|4.0×10^6 petaFLOP Imagen|2022|1.5×10^7 petaFLOP GPT-2 Medium (FlashAttention)|2022|8.9×10^5 petaFLOP Tranception|2022|7.2×10^6 petaFLOP DITTO|2022|3.3×10^3 petaFLOP CoCa|2022|7.3×10^7 petaFLOP Parti|2022|5.1×10^8 petaFLOP ProGen2-xlarge|2022|1.3×10^7 petaFLOP Minerva (540B)|2022|2.7×10^9 petaFLOP CodeT5-large|2022|2.7×10^6 petaFLOP NLLB|2022|1.8×10^7 petaFLOP BLOOM-176B|2022|3.7×10^8 petaFLOP ESM2-15B|2022|7.4×10^7 petaFLOP OmegaPLM|2022|1.0×10^7 petaFLOP AlexaTM 20B|2022|2.0×10^8 petaFLOP GLM-130B|2022|3.6×10^8 petaFLOP BlenderBot 3|2022|4.3×10^8 petaFLOP BEIT-3|2022|7.0×10^4 petaFLOP PaLI|2022|1.7×10^8 petaFLOP Whisper|2022|4.2×10^6 petaFLOP AlphaTensor|2022|7.1×10^5 petaFLOP DiffDock|2022|7.2×10^4 petaFLOP GenSLM|2022|1.4×10^6 petaFLOP Flan-PaLM 540B|2022|2.5×10^9 petaFLOP U-PaLM (540B)|2022|2.5×10^9 petaFLOP Mogrifier RLSTM (WT2)|2022|1.4×10^2 petaFLOP eDiff-I|2022|5.5×10^4 petaFLOP InternImage|2022|2.4×10^6 petaFLOP EVA-01|2022|1.5×10^7 petaFLOP Galactica|2022|3.2×10^8 petaFLOP AR-LDM|2022|5.1×10^5 petaFLOP Fusion in Encoder|2022|1.3×10^5 petaFLOP Discriminator Guidance|2022|2.2×10^5 petaFLOP Vega v2|2022|7.8×10^7 petaFLOP CaLM|2022|2.9×10^4 petaFLOP Hybrid H3-2.7B|2022|6.5×10^6 petaFLOP VALL-E|2023|1.0×10^4 petaFLOP DreamerV3|2023|2.2×10^5 petaFLOP Ankh_large|2023|6.5×10^6 petaFLOP Nucleotide Transformer|2023|8.1×10^6 petaFLOP DDPM-IP (CelebA)|2023|3.5×10^5 petaFLOP BLIP-2 (Q-Former)|2023|1.2×10^6 petaFLOP ViT-22B|2023|1.9×10^8 petaFLOP LLaMA-65B|2023|5.5×10^8 petaFLOP DiT-XL/2|2023|6.0×10^5 petaFLOP AudioGen|2023|9.5×10^6 petaFLOP Falcon-40B|2023|2.4×10^8 petaFLOP GPT-4 (Jun 2023)|2023|2.1×10^10 petaFLOP GPT-4 (Mar 2023)|2023|2.1×10^10 petaFLOP PanGu-Σ|2023|4.7×10^8 petaFLOP SigLIP 400M|2023|5.0×10^6 petaFLOP BloombergGPT|2023|2.4×10^8 petaFLOP VideoMAE V2|2023|9.7×10^6 petaFLOP Segment Anything Model|2023|7.8×10^6 petaFLOP Incoder-6.7B|2023|3.0×10^6 petaFLOP DINOv2|2023|7.4×10^6 petaFLOP LLaVA|2023|7.8×10^7 petaFLOP PaLM 2|2023|7.3×10^9 petaFLOP StarCoder|2023|8.5×10^7 petaFLOP InstructBLIP|2023|1.9×10^5 petaFLOP ONE-PEACE|2023|1.8×10^5 petaFLOP PaLI-X|2023|5.6×10^8 petaFLOP HyenaDNA|2023|1.8×10^6 petaFLOP InternLM|2023|1.0×10^9 petaFLOP Pangu-Weather|2023|4.0×10^7 petaFLOP xTrimoPGLM -100B|2023|6.2×10^8 petaFLOP Claude 2|2023|3.9×10^9 petaFLOP Llama 2-70B|2023|8.1×10^8 petaFLOP Llama 2-7B|2023|8.4×10^7 petaFLOP AudioLM|2023|3.9×10^3 petaFLOP GGNN|2023|7.6×10^6 petaFLOP PeptideBERT|2023|4.9×10^1 petaFLOP Jais|2023|4.9×10^7 petaFLOP Swift|2023|5.3×10^1 petaFLOP Falcon-180B|2023|3.8×10^9 petaFLOP Amazon Titan|2023|4.8×10^9 petaFLOP FinGPT-13B|2023|1.6×10^8 petaFLOP RoseTTAFold All-Atom (RFAA)|2023|2.1×10^5 petaFLOP CODEFUSION (Python)|2023|7.9×10^3 petaFLOP ChatGLM3-6B|2023|5.0×10^7 petaFLOP Skywork-13B|2023|2.5×10^8 petaFLOP Grok-1|2023|2.9×10^9 petaFLOP LLaVA 1.5|2023|7.8×10^7 petaFLOP Yi-34B|2023|6.1×10^8 petaFLOP CogVLM-17B|2023|6.3×10^7 petaFLOP MultiBand Diffusion|2023|2.6×10^4 petaFLOP RoFormer|2023|2.2×10^3 petaFLOP GraphCast|2023|2.1×10^7 petaFLOP Nemotron-3-8B|2023|1.8×10^8 petaFLOP SPHINX (Llama 2 13B)|2023|3.0×10^7 petaFLOP Volcano 13B|2023|4.6×10^7 petaFLOP Inflection-2|2023|1.0×10^10 petaFLOP Qwen-72B|2023|1.3×10^9 petaFLOP Gemini 1.0 Ultra|2023|5.0×10^10 petaFLOP Llama Guard|2023|1.6×10^8 petaFLOP Mixtral 8x7B|2023|7.7×10^8 petaFLOP CogAgent|2023|6.7×10^7 petaFLOP FunSearch|2023|3.9×10^8 petaFLOP VILA-13B|2023|2.3×10^6 petaFLOP nekomata-14b|2023|2.6×10^8 petaFLOP GQA-8-XXL|2023|3.5×10^7 petaFLOP Qwen1.5-72B|2024|1.3×10^9 petaFLOP MegaScale (Production)|2024|3.9×10^9 petaFLOP Stable Diffusion 3|2024|5.0×10^7 petaFLOP Mistral Large|2024|1.1×10^10 petaFLOP Aramco Metabrain AI|2024|1.1×10^10 petaFLOP Inflection-2.5|2024|8.0×10^9 petaFLOP MM1-30B|2024|4.9×10^8 petaFLOP DBRX|2024|2.6×10^9 petaFLOP Reka Core|2024|8.4×10^9 petaFLOP Llama 3-70B|2024|7.9×10^9 petaFLOP GenCast|2024|8.2×10^5 petaFLOP VILA1.5-13B|2024|2.3×10^6 petaFLOP AlphaFold 3|2024|4.1×10^7 petaFLOP Yi-Large|2024|1.8×10^9 petaFLOP Octo-Base|2024|5.9×10^5 petaFLOP ALLaM adapted 70B|2024|1.1×10^9 petaFLOP Qwen2-72B|2024|3.0×10^9 petaFLOP Llama-3.1-Nemotron-70B-Instruct|2024|7.9×10^9 petaFLOP Nemotron-4 340B|2024|1.8×10^10 petaFLOP OpenVLA|2024|1.1×10^8 petaFLOP DeepSeek-Coder-V2 236B|2024|1.3×10^9 petaFLOP Claude 3.5 Sonnet|2024|2.7×10^10 petaFLOP ESM3 (98B)|2024|1.1×10^9 petaFLOP Llama 3.1-405B|2024|3.8×10^10 petaFLOP Mistral Large 2|2024|2.1×10^10 petaFLOP AFM-on-device|2024|4.5×10^8 petaFLOP AFM-server|2024|4.3×10^9 petaFLOP LLaVA-OV-72B|2024|3.0×10^9 petaFLOP Grok-2|2024|3.0×10^10 petaFLOP DeepSeek-V2.5|2024|1.8×10^9 petaFLOP Qwen2.5-32B|2024|3.5×10^9 petaFLOP Qwen2.5 Instruct (72B)|2024|7.9×10^9 petaFLOP Qwen2.5-72B|2024|7.8×10^9 petaFLOP Telechat2-115B|2024|6.9×10^9 petaFLOP Llama 3.2 11B|2024|5.8×10^8 petaFLOP Movie Gen Video|2024|1.7×10^9 petaFLOP RDT-1B|2024|4.1×10^7 petaFLOP CHAI-1|2024|7.8×10^6 petaFLOP Yi-Lightning|2024|1.5×10^9 petaFLOP NVLM-D 72B|2024|3.0×10^9 petaFLOP NVLM-H 72B|2024|3.0×10^9 petaFLOP NVLM-X 72B|2024|3.0×10^9 petaFLOP Doubao-pro|2024|2.5×10^10 petaFLOP Hunyuan-Large|2024|3.5×10^9 petaFLOP Amazon Nova Pro|2024|6.0×10^9 petaFLOP Llama 3.3 70B|2024|6.9×10^9 petaFLOP EXAONE 3.5 32B|2024|1.3×10^9 petaFLOP DeepSeek-V3|2024|3.3×10^9 petaFLOP DeepSeek-R1|2025|3.5×10^9 petaFLOP Eagle 2|2025|4.7×10^7 petaFLOP Grok 3|2025|3.5×10^11 petaFLOP Claude 3.7 Sonnet|2025|3.4×10^10 petaFLOP GPT-4.5|2025|3.8×10^11 petaFLOP QwQ-32B|2025|3.5×10^9 petaFLOP Hunyuan-TurboS|2025|5.4×10^9 petaFLOP EXAONE Deep 32B|2025|1.3×10^9 petaFLOP DeepSeek-V3 (Mar 2025)|2025|3.3×10^9 petaFLOP Llama 4 Behemoth (preview)|2025|5.2×10^10 petaFLOP Llama 4 Maverick|2025|2.2×10^9 petaFLOP Llama 4 Scout|2025|4.1×10^9 petaFLOP Pangu Ultra|2025|1.1×10^10 petaFLOP Qwen3-235B-A22B|2025|4.8×10^9 petaFLOP Seed1.5-VL|2025|1.4×10^9 petaFLOP DeepSeek-R1 (May 2025)|2025|4.0×10^9 petaFLOP FGN|2025|9.6×10^6 petaFLOP Grok 4|2025|5.0×10^11 petaFLOP Kimi K2|2025|3.0×10^9 petaFLOP EXAONE 4.0 (32B)|2025|2.7×10^9 petaFLOP Qwen3-Coder-480B-A35B|2025|1.6×10^9 petaFLOP Qwen3-235B-A22B (Jul 2025)|2025|4.8×10^9 petaFLOP Qwen3-235B-A22B-Thinking (Jul 2025)|2025|4.8×10^9 petaFLOP GLM-4.5|2025|4.4×10^9 petaFLOP gpt-oss-120b|2025|4.9×10^9 petaFLOP gpt-oss-20b|2025|5.5×10^8 petaFLOP GPT-5|2025|6.6×10^10 petaFLOP LongCat-Flash|2025|3.7×10^9 petaFLOP Qwen3-Max|2025|1.5×10^10 petaFLOP AgentFounder-30B|2025|6.5×10^8 petaFLOP Qwen3-Omni-30B-A3B|2025|3.6×10^7 petaFLOP GLM-4.6|2025|4.4×10^9 petaFLOP Ling-1T|2025|6.0×10^9 petaFLOP Kimi K2 Thinking|2025|4.2×10^9 petaFLOP Olmo 3|2025|1.1×10^9 petaFLOP Nemotron 3-Nano-30B-A3B|2025|4.8×10^8 petaFLOP GLM-4.7|2025|4.4×10^9 petaFLOP K-EXAONE|2026|1.5×10^9 petaFLOP Kimi K2.5|2026|5.8×10^9 petaFLOP GLM-5|2026|6.8×10^9 petaFLOP Composer 2|2026|2.3×10^10 petaFLOP DeepSeek-V4-Flash|2026|2.5×10^9 petaFLOP DeepSeek-V4-Pro|2026|9.7×10^9 petaFLOP MiMo-V2.5-Pro|2026|6.8×10^9 petaFLOP Composer 2.5|2026|3.9×10^10 petaFLOP Nemotron 3 Ultra|2026|6.6×10^9 petaFLOP 語言 視覺 多領域 生物 遊戲 其他 圖像生成 語音 機器人 每個點為一個知名 AI 模型,橫軸=發佈年份、縱軸=訓練算力(對數軸,單位 petaFLOP=10¹⁵ 次浮點運算),按應用領域著色;共 527 個模型。 參數量趨勢 模型的可訓練參數數量——參數越多,模型「容量」通常越大。按開發方類型(產業界 / 學術界 / 產學合作)著色,可見近年前沿被產業界主導。
10² 10⁴ 10⁶ 10⁸ 10¹⁰ 10¹² 1960 1980 2000 2020 發佈年份 參數量(個,對數軸) Theseus|1950|4.0×10^1 個參數 SNARC|1952|4.0×10^1 個參數 Self Organizing System|1955|2.3×10^2 個參數 Perceptron Mark I|1957|1.0×10^3 個參數 Samuel Neural Checkers|1959|1.6×10^1 個參數 Pattern recognition and reading by machine|1959|2.6×10^3 個參數 Perceptron (1960)|1960|1.0×10^3 個參數 ADALINE|1960|1.7×10^1 個參數 LTE speaker verification system|1966|2.1×10^3 個參數 Decision tree adaline|1969|2.5×10^3 個參數 Piecewise linear model|1973|3.6×10^2 個參數 Cognitron|1975|2.2×10^4 個參數 Neocognitron|1980|1.1×10^6 個參數 Kohonen network|1981|4.1×10^3 個參數 Hopfield network|1982|9.9×10^3 個參數 ASE+ACE|1983|3.2×10^2 個參數 Hierarchical Cognitron|1984|9.3×10^3 個參數 Distributed representation NN|1986|4.3×10^2 個參數 MLP with back-propagation|1986|7.2×10^2 個參數 NetTalk (dictionary)|1987|1.9×10^4 個參數 NetTalk (transcription)|1987|1.9×10^4 個參數 Translation-invariant MLP|1987|8.2×10^2 個參數 MLN-ASR|1988|1.0×10^4 個參數 Truck backer-upper|1989|8.1×10^2 個參數 Handwritten digit recognition network|1989|2.6×10^3 個參數 Speaker-independent vowel classification|1989|3.0×10^3 個參數 Zip CNN|1989|9.8×10^3 個參數 NETtalk reimplementation|1990|2.8×10^4 個參數 Bankruptcy-NN|1990|3.6×10^1 個參數 SexNet classification|1990|1.6×10^3 個參數 SexNet compression|1990|7.3×10^4 個參數 RAAM|1990|1.5×10^3 個參數 Weight Decay|1991|8.4×10^3 個參數 TD-Gammon|1992|2.5×10^4 個參數 Cancer drug mechanism prediction|1992|5.9×10^2 個參數 Boosting|1992|2.6×10^3 個參數 IBM-5|1993|1.7×10^6 個參數 Siamese-TDNN|1993|7.4×10^2 個參數 ANN Eye Tracker|1993|5.6×10^3 個參數 Ceramic-MLP|1994|1.9×10^3 個參數 JPMAX|1994|4.5×10^3 個參數 Mixture of linear models|1994|3.8×10^5 個參數 NeuroChess|1994|7.2×10^4 個參數 Predictive Coding NN|1994|2.1×10^5 個參數 Support Vector Machines|1995|1.0×10^8 個參數 LISSOM|1995|4.3×10^5 個參數 MUSIC perceptron|1996|1.4×10^4 個參數 System 11|1996|6.5×10^3 個參數 SOM-CNN|1997|3.2×10^4 個參數 Deep Blue|1997|8.0×10^3 個參數 Bidirectional RNN|1997|1.3×10^4 個參數 LSTM|1997|1.1×10^4 個參數 LeNet-5|1998|6.0×10^4 個參數 LSTM with forget gates|1999|2.8×10^2 個參數 RECONTRA-categorized|1999|6.7×10^4 個參數 RECONTRA-uncategorized|1999|1.1×10^5 個參數 Neural LM|2000|6.9×10^6 個參數 PoE MNIST|2000|3.9×10^6 個參數 Decision tree (classification)|2001|1.2×10^4 個參數 NPLM (AP News)|2003|1.2×10^7 個參數 NPLM (Brown)|2003|4.1×10^6 個參數 Invariant CNN|2004|9.1×10^4 個參數 LMICA|2004|4.1×10^6 個參數 RankNet|2005|5.7×10^3 個參數 SVM-CNN|2006|9.1×10^4 個參數 Deep Belief Nets|2006|1.6×10^6 個參數 Dimensionality Reduction|2006|3.8×10^6 個參數 KN-LM|2007|2.1×10^10 個參數 SB-LM|2007|3.0×10^11 個參數 BLSTM for handwriting (2)|2007|1.0×10^5 個參數 Deep Multitask NLP Network|2008|1.5×10^6 個參數 HLBL|2008|1.9×10^6 個參數 GNN|2008|3.0×10^1 個參數 BP-DBN|2009|1.8×10^7 個參數 RBM Image Classifier|2009|8.0×10^7 個參數 GPU DBNs|2009|1.0×10^8 個參數 Two Stage Feature Extraction (MNIST)|2009|2.6×10^5 個參數 LCNP LabelMe|2009|1.4×10^7 個參數 LCNP MNIST|2009|1.2×10^7 個參數 LCNP NORB|2009|1.7×10^7 個參數 Super-vector coding|2010|1.0×10^3 個參數 Feedforward NN|2010|7.1×10^6 個參數 ReLU (NORB)|2010|1.6×10^7 個參數 Pooling CNN (Caltech 101)|2010|3.0×10^5 個參數 Pooling CNN (NORB)|2010|2.7×10^5 個參數 RNN LM|2010|7.0×10^7 個參數 Deep Autoencoders|2011|1.4×10^8 個參數 Vector Space Model|2011|2.6×10^5 個參數 High Performance CNN (NORB)|2011|4.9×10^6 個參數 CNN Committee (MNIST)|2011|1.2×10^5 個參數 CNN Committee (NIST)|2011|1.3×10^5 個參數 CNN committee (traffic sign)|2011|1.4×10^6 個參數 NLP from scratch|2011|5.0×10^6 個參數 Dropout (MNIST)|2012|5.6×10^6 個參數 Dropout (TIMIT)|2012|4.9×10^7 個參數 Unsupervised High-level Feature Learner|2012|1.0×10^9 個參數 LSTM LM|2012|1.0×10^8 個參數 AlexNet|2012|6.0×10^7 個參數 DNN EM segmentation|2012|2.2×10^5 個參數 DistBelief Speech|2012|4.7×10^7 個參數 DistBelief Vision|2012|1.7×10^9 個參數 RNN+LDA+KN5+cache|2012|9.0×10^6 個參數 PreTrans-3L-250H|2013|4.3×10^7 個參數 Multilingual DNN|2013|2.1×10^8 個參數 ReLU-Speech|2013|1.0×10^8 個參數 Hierarchical Scene Labeling (Stanford Background)|2013|5.2×10^7 個參數 Word2Vec (large)|2013|6.9×10^8 個參數 Word2Vec (small)|2013|2.1×10^8 個參數 R-CNN (T-net)|2013|6.9×10^7 個參數 TransE|2013|9.4×10^8 個參數 RNN for 1B words|2013|2.0×10^10 個參數 DQN|2013|8.4×10^5 個參數 Image generation|2013|7.8×10^5 個參數 OverFeat|2013|1.4×10^8 個參數 GloVe (32B)|2014|1.2×10^8 個參數 GloVe (6B)|2014|1.2×10^8 個參數 HyperNEAT|2014|2.4×10^5 個參數 Paragraph Vector|2014|3.2×10^7 個參數 AdaRNN|2014|1.3×10^4 個參數 Dropout: SVHN|2014|4.8×10^7 個參數 Fragment embedding|2014|1.4×10^8 個參數 Multiresolution CNN|2014|1.3×10^8 個參數 RNN-WER|2014|2.6×10^7 個參數 ACF-WIDER|2014|6.1×10^3 個參數 NPD|2014|3.1×10^5 個參數 VGG16|2014|1.4×10^8 個參數 VGG19|2014|1.4×10^8 個參數 Seq2Seq LSTM|2014|1.9×10^9 個參數 SPN-4+KN5|2014|5.0×10^6 個參數 GoogLeNet / InceptionV1|2014|6.8×10^6 個參數 LRCN|2014|1.4×10^8 個參數 TA-CNN|2014|7.1×10^5 個參數 SNM-skip|2014|6.2×10^10 個參數 Fractional Max-Pooling|2014|2.7×10^7 個參數 ADAM (CIFAR-10)|2014|2.4×10^6 個參數 VGG-Face|2015|1.4×10^8 個參數 MSRA (C, PReLU)|2015|8.7×10^7 個參數 TRPO|2015|3.4×10^4 個參數 DQN-2015|2015|1.7×10^6 個參數 genCNN + dyn eval|2015|8.0×10^6 個參數 TC-DNN-BLSTM-DNN|2015|1.8×10^7 個參數 U-Net|2015|3.8×10^7 個參數 CFSS|2015|1.7×10^4 個參數 YOLO|2015|2.7×10^8 個參數 BatchNorm|2015|1.4×10^7 個參數 Deep CNN + COTS|2015|5.0×10^6 個參數 DCNN|2015|5.0×10^6 個參數 AlphaGo Fan|2015|8.2×10^6 個參數 SAF R-CNN|2015|1.4×10^8 個參數 3DDFA|2015|5.4×10^6 個參數 Inception v3|2015|2.4×10^7 個參數 ResNet-101 (ImageNet)|2015|4.5×10^7 個參數 ResNet-110 (CIFAR-10)|2015|1.7×10^6 個參數 ResNet-152 (ImageNet)|2015|6.0×10^7 個參數 Variational (untied weights, MC) LSTM (Large)|2015|6.6×10^7 個參數 Inception-ResNet-V2|2016|5.6×10^7 個參數 Inceptionv4|2016|4.3×10^7 個參數 SqueezeNet|2016|1.2×10^6 個參數 Double DQN|2016|1.5×10^6 個參數 |2016|1.4×10^8 個參數 Dueling DQN|2016|1.7×10^6 個參數 Gated HORNN (3rd order)|2016|9.0×10^6 個參數 LRR-4X|2016|1.4×10^8 個參數 CMS-RCNN|2016|1.4×10^8 個參數 SimpleNet|2016|5.5×10^6 個參數 DenseNet-264|2016|3.4×10^7 個參數 LF-MMI|2016|1.7×10^7 個參數 MS-ensemble-speech-recognition|2016|3.2×10^9 個參數 ResNet-1001|2016|1.0×10^7 個參數 GNMT|2016|2.8×10^8 個參數 Pointer Sentinel-LSTM (medium)|2016|2.1×10^7 個參數 Xception|2016|2.3×10^7 個參數 SPIDER2|2016|4.1×10^5 個參數 BIDAF|2016|2.6×10^6 個參數 NAS with base 8 and shared embeddings|2016|5.4×10^7 個參數 NASv3 (CIFAR-10)|2016|3.7×10^7 個參數 VD-LSTM+REAL Large|2016|5.1×10^7 個參數 DLDL (PASCAL)|2016|5.6×10^8 個參數 ResNeXt-101 (64×4d)|2016|8.3×10^7 個參數 ResNeXt-50|2016|2.5×10^7 個參數 PolyNet|2016|9.2×10^7 個參數 3DMM-CNN|2016|4.5×10^7 個參數 HR-ResNet101|2016|4.5×10^7 個參數 EnhanceNet|2016|8.1×10^5 個參數 YOLOv2|2016|5.1×10^7 個參數 DeepStack|2017|2.5×10^6 個參數 OR-WideResNet|2017|1.8×10^7 個參數 MoE-Multi|2017|8.7×10^9 個參數 MobileNet|2017|4.2×10^6 個參數 Transformer (2017)|2017|2.1×10^8 個參數 ShuffleNet v1|2017|2.4×10^6 個參數 JFT|2017|4.5×10^7 個參數 AWD-LSTM|2017|2.4×10^7 個參數 NASNet-A|2017|8.9×10^7 個參數 AWD-LSTM - 3-layer LSTM (tied) + continuous cache pointer (WT2)|2017|3.3×10^7 個參數 RetinaNet-R101|2017|5.3×10^7 個參數 RetinaNet-R50|2017|3.4×10^7 個參數 EI-REHN-1000D|2017|1.9×10^7 個參數 GL-LWGC-AWD-MoS-LSTM + dynamic evaluation (WT2)|2017|3.8×10^7 個參數 PyramidNet|2017|2.6×10^7 個參數 SENet (ImageNet)|2017|2.8×10^7 個參數 ISS|2017|1.1×10^7 個參數 LSTM + dynamic eval|2017|5.0×10^7 個參數 AWD-LSTM+WT+Cache+IOG (WT2)|2017|5.3×10^7 個參數 AlphaGo Zero|2017|4.6×10^7 個參數 Fraternal dropout + AWD-LSTM 3-layer (WT2)|2017|3.4×10^7 個參數 AWD-LSTM-MoS + dynamic evaluation (WT2, 2017)|2017|3.5×10^7 個參數 DL scaling Image|2017|1.2×10^8 個參數 DL scaling LM|2017|1.8×10^8 個參數 DL scaling speech|2017|1.9×10^8 個參數 ELMo|2018|9.4×10^7 個參數 QRNN|2018|1.4×10^8 個參數 IMPALA|2018|1.6×10^6 個參數 TCN (P-MNIST)|2018|4.2×10^4 個參數 4 layer QRNN (h=2500)|2018|1.5×10^8 個參數 YOLOv3|2018|5.7×10^7 個參數 Dropout-LSTM+Noise(Bernoulli) (WT2)|2018|5.1×10^7 個參數 ResNeXt-101 32x48d|2018|8.3×10^8 個參數 aLSTM(depth-2)+RecurrentPolicy (WT2)|2018|3.2×10^7 個參數 GPT-1|2018|1.2×10^8 個參數 MobileNetV2|2018|3.4×10^6 個參數 FTW (For The Win)|2018|1.3×10^8 個參數 Big-Little Net|2018|7.7×10^7 個參數 Big-Little Net (speech)|2018|3.3×10^6 個參數 AWD-LSTM-MoS+PDR + dynamic evaluation (WT2)|2018|3.5×10^7 個參數 (ensemble): AWD-LSTM-DOC (fin) × 5 (WT2)|2018|1.9×10^8 個參數 AWD-LSTM-MoS + dynamic evaluation (WT2, 2018)|2018|3.5×10^7 個參數 Transformer + Simple Recurrent Unit|2018|9.0×10^7 個參數 LSTM+NeuralCache|2018|2.1×10^6 個參數 Transformer (Adaptive Input Embeddings) WT103|2018|2.5×10^8 個參數 BERT-Large|2018|3.4×10^8 個參數 MetaMimic|2018|2.2×10^7 個參數 TrellisNet|2018|1.8×10^8 個參數 Mesh-TensorFlow Transformer 2.9B (translation)|2018|2.9×10^9 個參數 Mesh-TensorFlow Transformer 4.9B (language)|2018|4.9×10^9 個參數 Fine-tuned-AWD-LSTM-DOC (fin)|2018|4.6×10^7 個參數 GPipe (Transformer)|2018|6.0×10^9 個參數 Multi-cell LSTM|2018|7.2×10^6 個參數 SPN (ImageNet 128)|2018|2.5×10^8 個參數 StyleGAN|2018|2.6×10^7 個參數 Transformer ELMo|2019|5.6×10^7 個參數 Transformer-XL (257M)|2019|2.6×10^8 個參數 Hanabi 4 player|2019|7.6×10^5 個參數 MT-DNN|2019|3.3×10^8 個參數 GPT-2 (1.5B)|2019|1.5×10^9 個參數 KataGo|2019|2.5×10^6 個參數 NMT Transformer 437M|2019|4.4×10^8 個參數 SciBERT|2019|1.1×10^8 個參數 True-Regularization+Finetune+Dynamic-Eval|2019|7.0×10^6 個參數 WeNet (Penn Treebank)|2019|2.3×10^7 個參數 Transformer-XL + RMS dynamic eval|2019|2.6×10^8 個參數 BERT-Large-CAS (PTB+WT2+WT103)|2019|4.0×10^8 個參數 MuseNet|2019|2.0×10^9 個參數 ResNeXt-101 Billion-scale|2019|1.9×10^8 個參數 AWD-LSTM-DRILL + dynamic evaluation† (WT2)|2019|3.4×10^7 個參數 CPC v2|2019|3.0×10^8 個參數 EfficientNet-L2|2019|4.8×10^8 個參數 DLRM-2020|2019|1.0×10^11 個參數 XLM|2019|6.7×10^8 個參數 XLNet|2019|3.4×10^8 個參數 Transformer-XL Large + Phrase Induction|2019|2.6×10^8 個參數 AWD-LSTM + MoS + Partial Shuffled|2019|3.5×10^7 個參數 FixRes ResNeXt-101 WSL|2019|8.3×10^8 個參數 LaNet-L (CIFAR-10)|2019|4.4×10^7 個參數 BigBiGAN|2019|8.6×10^7 個參數 RoBERTa Large|2019|3.6×10^8 個參數 EN^2AS with performance reward|2019|2.3×10^7 個參數 Mogrifier (d2, MoS2, MC) + dynamic eval|2019|3.5×10^7 個參數 UDSMProt|2019|2.8×10^7 個參數 Megatron-BERT|2019|3.9×10^9 個參數 Megatron-LM (1.2B)|2019|1.2×10^9 個參數 Megatron-LM (8.3B)|2019|8.3×10^9 個參數 ALBERT|2019|1.8×10^7 個參數 Adaptive Inputs + LayerDrop|2019|4.2×10^8 個參數 AlphaX-1|2019|5.4×10^6 個參數 DistilBERT|2019|6.6×10^7 個參數 M4-50B|2019|5.0×10^10 個參數 T5-11B|2019|1.1×10^10 個參數 T5-3B|2019|2.8×10^9 個參數 BART-large|2019|4.1×10^8 個參數 AlphaStar|2019|1.4×10^8 個參數 Base LM + kNN LM + Continuous Cache|2019|2.5×10^8 個參數 XLM-RoBERTa|2019|5.5×10^8 個參數 CamemBERT|2019|3.4×10^8 個參數 Noisy Student (L2)|2019|4.8×10^8 個參數 Sandwich Transformer|2019|2.1×10^8 個參數 MoCo|2019|3.8×10^8 個參數 MuZero|2019|3.7×10^7 個參數 Transformer - LibriVox + Decoding/Rescoring|2019|3.0×10^8 個參數 Transformer-XL DeFINE (141M)|2019|1.4×10^8 個參數 StyleGAN2|2019|3.0×10^7 個參數 MMLSTM (PTB)|2019|2.1×10^7 個參數 MMLSTM (WT-2)|2019|3.2×10^7 個參數 OpenAI Five|2019|1.6×10^8 個參數 OpenAI Five Rerun|2019|1.6×10^8 個參數 Big Transfer (BiT-L)|2019|9.3×10^8 個參數 AlphaFold|2020|1.6×10^7 個參數 Meena|2020|2.6×10^9 個參數 Perceiver IO (optical flow)|2020|2.8×10^7 個參數 TaLK Convolution|2020|2.4×10^8 個參數 Theseus 6/768|2020|6.6×10^7 個參數 ALBERT-xxlarge|2020|2.4×10^8 個參數 FFN SwiGLU|2020|2.2×10^8 個參數 SimCLR|2020|3.8×10^8 個參數 Turing-NLG|2020|1.7×10^10 個參數 Feedback Transformer|2020|1.3×10^8 個參數 TCAN (WT2)|2020|3.3×10^7 個參數 Routing Transformer (WT-103)|2020|8.0×10^7 個參數 TransformerXL + spectrum control|2020|1.5×10^8 個參數 Tensor-Transformer(1core)+PN (WT103)|2020|8.5×10^7 個參數 ELECTRA|2020|3.4×10^8 個參數 MetNet|2020|2.3×10^8 個參數 CURL|2020|9.1×10^5 個參數 Once for All|2020|7.7×10^6 個參數 UnifiedQA|2020|1.1×10^10 個參數 NAS+ESS (23M)|2020|2.3×10^7 個參數 ContextNet|2020|1.1×10^8 個參數 Conformer|2020|1.2×10^8 個參數 Retrieval-Augmented Generator|2020|6.3×10^8 個參數 DETR|2020|6.0×10^7 個參數 GPT-3 175B (davinci)|2020|1.8×10^11 個參數 GShard (dense)|2020|2.3×10^9 個參數 EfficientDet|2020|7.7×10^7 個參數 DeLighT|2020|9.9×10^7 個參數 ERNIE-GEN (large)|2020|3.4×10^8 個參數 ProBERTa|2020|4.4×10^7 個參數 LUKE|2020|4.8×10^8 個參數 Conformer + Wav2vec 2.0 + Noisy Student|2020|1.0×10^9 個參數 German ELECTRA Large|2020|3.4×10^8 個參數 mT5-XXL|2020|1.3×10^10 個參數 ViT-Base/32|2020|8.6×10^7 個參數 ViT-Huge/14|2020|6.3×10^8 個參數 wave2vec 2.0 LARGE|2020|3.2×10^8 個參數 KEPLER|2020|1.3×10^8 個參數 AlphaFold 2|2020|9.3×10^7 個參數 CPM-Large|2020|2.6×10^9 個參數 ESM1b|2020|6.5×10^8 個參數 CT-MoS (WT2)|2020|4.5×10^7 個參數 ERNIE-Doc (247M)|2021|2.5×10^8 個參數 CLIP (ResNet-50)|2021|8.9×10^7 個參數 CLIP (ViT L/14@336px)|2021|3.7×10^8 個參數 DALL-E|2021|1.2×10^10 個參數 BigSSL|2021|8.0×10^9 個參數 Switch|2021|1.6×10^12 個參數 DeiT-B|2021|8.6×10^7 個參數 DLWP|2021|2.7×10^6 個參數 MSA Transformer|2021|1.0×10^8 個參數 Rational DQN Average|2021|1.7×10^6 個參數 SRU++ Large|2021|2.3×10^8 個參數 Meta Pseudo Labels|2021|4.8×10^8 個參數 Generative BST|2021|9.4×10^9 個參數 M6-T|2021|1.0×10^12 個參數 Unicorn|2021|1.1×10^10 個參數 PLUG|2021|2.7×10^10 個參數 ProtBERT-BFD|2021|4.2×10^8 個參數 ProtT5-XL-U50|2021|3.0×10^9 個參數 ADM|2021|5.6×10^8 個參數 MedBERT|2021|1.7×10^7 個參數 ByT5-XXL|2021|1.3×10^10 個參數 CogView|2021|4.0×10^9 個參數 Transformer local-attention (NesT-B)|2021|9.0×10^7 個參數 ViT-G/14|2021|1.8×10^9 個參數 ALIGN|2021|8.2×10^8 個參數 CoAtNet|2021|2.4×10^9 個參數 DeBERTa|2021|1.5×10^9 個參數 Denoising Diffusion Probabilistic Models (LSUN Bedroom)|2021|2.6×10^8 個參數 EMDR|2021|4.4×10^8 個參數 EfficientNetV2-XL|2021|2.1×10^8 個參數 StyleGAN3-R|2021|1.6×10^6 個參數 StyleGAN3-T|2021|2.2×10^6 個參數 Fold2Seq|2021|1.2×10^7 個參數 Adaptive Input Transformer + RD|2021|2.5×10^8 個參數 Codex|2021|1.2×10^10 個參數 ERNIE 3.0|2021|1.0×10^10 個參數 GOAT|2021|3.5×10^6 個參數 HuBERT|2021|1.0×10^9 個參數 SEER|2021|1.3×10^9 個參數 6-Act Tether|2021|5.0×10^6 個參數 YOLOX-X|2021|9.9×10^7 個參數 W2v-BERT|2021|1.0×10^9 個參數 Jurassic-1-Jumbo|2021|1.8×10^11 個參數 Zidong Taichu|2021|3.2×10^9 個參數 DNABERT|2021|1.1×10^8 個參數 XLMR-XXL|2021|1.1×10^10 個參數 FLAN 137B|2021|1.4×10^11 個參數 MEB|2021|1.3×10^11 個參數 PermuteFormer|2021|1.5×10^8 個參數 HyperCLOVA 204B|2021|2.0×10^11 個參數 PLATO-XL|2021|1.1×10^10 個參數 TrOCR|2021|5.6×10^8 個參數 Turing ULRv5|2021|2.2×10^9 個參數 Megatron-Turing NLG 530B|2021|5.3×10^11 個參數 Yuan 1.0|2021|2.5×10^11 個參數 base LM+GNN+kNN|2021|2.7×10^8 個參數 Eve|2021|1.5×10^7 個參數 CodeT5-base|2021|2.2×10^8 個參數 S4|2021|2.5×10^8 個參數 Masked Autoencoders ViT-H|2021|6.3×10^8 個參數 ViT-G/14 (LiT)|2021|3.0×10^9 個參數 BASIC-L|2021|3.1×10^9 個參數 Swin Transformer V2 (SwinV2-G)|2021|3.0×10^9 個參數 Florence|2021|8.9×10^8 個參數 NÜWA|2021|8.7×10^8 個參數 T-NLRv5 XXL|2021|5.4×10^9 個參數 Gopher (280B)|2021|2.8×10^11 個參數 GLaM|2021|1.2×10^12 個參數 LongT5|2021|3.0×10^9 個參數 Contriever|2021|1.1×10^8 個參數 LDM-1.45B|2021|1.5×10^9 個參數 XGLM-7.5B|2021|7.5×10^9 個參數 ERNIE 3.0 Titan|2021|2.6×10^11 個參數 ERNIE-ViLG|2022|1.0×10^10 個參數 Detic|2022|8.8×10^7 個參數 data2vec (language)|2022|7.1×10^8 個參數 data2vec (speech)|2022|7.1×10^8 個參數 data2vec (vision)|2022|7.1×10^8 個參數 AbLang (heavy sequences)|2022|3.6×10^8 個參數 OntoProtein|2022|4.2×10^8 個參數 InstructGPT 1.3B|2022|1.3×10^9 個參數 InstructGPT 175B|2022|1.8×10^11 個參數 InstructGPT 6B|2022|6.0×10^9 個參數 AlphaCode|2022|4.1×10^10 個參數 MaskGIT (ImageNet)|2022|2.3×10^8 個參數 RETRO-7B|2022|7.5×10^9 個參數 GPT-NeoX-20B|2022|2.0×10^10 個參數 LaMDA|2022|1.4×10^11 個參數 ProteinBERT|2022|1.6×10^7 個參數 ST-MoE|2022|2.7×10^11 個參數 PolyCoder|2022|2.7×10^9 個參數 DeepNet|2022|3.2×10^9 個參數 Statement Curriculum Learning|2022|7.7×10^8 個參數 ViT-G (model soup)|2022|1.8×10^9 個參數 Make-A-Scene|2022|4.0×10^9 個參數 Segatron-XL large, M=384 + HCP|2022|2.6×10^8 個參數 Chinchilla|2022|7.0×10^10 個參數 PaLM (540B)|2022|5.4×10^11 個參數 BERT-RBP|2022|1.1×10^8 個參數 DALL·E 2|2022|3.5×10^9 個參數 Sparse all-MLP|2022|9.4×10^9 個參數 Stable Diffusion (LDM-KL-8-G)|2022|1.5×10^9 個參數 Flamingo|2022|8.0×10^10 個參數 OPT-175B|2022|1.8×10^11 個參數 DeBERTaV3large + KEAR|2022|4.2×10^8 個參數 UL2|2022|2.0×10^10 個參數 Gato|2022|1.2×10^9 個參數 Imagen|2022|7.8×10^9 個參數 GPT-2 Medium (FlashAttention)|2022|3.6×10^8 個參數 Tranception|2022|7.0×10^8 個參數 CogVideo|2022|9.4×10^9 個參數 DITTO|2022|7.5×10^8 個參數 CoCa|2022|2.1×10^9 個參數 Parti|2022|2.0×10^10 個參數 ProGen2-xlarge|2022|6.4×10^9 個參數 Minerva (540B)|2022|5.4×10^11 個參數 CodeT5-large|2022|7.7×10^8 個參數 NLLB|2022|5.5×10^10 個參數 BLOOM-176B|2022|1.8×10^11 個參數 ESM2-15B|2022|1.5×10^10 個參數 OmegaPLM|2022|6.7×10^8 個參數 AlexaTM 20B|2022|2.0×10^10 個參數 GLM-130B|2022|1.3×10^11 個參數 BlenderBot 3|2022|1.8×10^11 個參數 BEIT-3|2022|1.9×10^9 個參數 PaLI|2022|1.7×10^10 個參數 Whisper|2022|1.6×10^9 個參數 DiffDock|2022|2.0×10^7 個參數 Phenaki|2022|1.8×10^9 個參數 GenSLM|2022|2.5×10^10 個參數 Flan-PaLM 540B|2022|5.4×10^11 個參數 LMSI-Palm|2022|5.4×10^11 個參數 U-PaLM (540B)|2022|5.4×10^11 個參數 Mogrifier RLSTM (WT2)|2022|3.5×10^7 個參數 eDiff-I|2022|9.1×10^9 個參數 mT0-13B|2022|1.3×10^10 個參數 InternImage|2022|1.1×10^9 個參數 EVA-01|2022|1.0×10^9 個參數 Galactica|2022|1.2×10^11 個參數 AR-LDM|2022|1.5×10^9 個參數 Fusion in Encoder|2022|3.3×10^8 個參數 ALM 1.0|2022|3.4×10^8 個參數 Vega v2|2022|6.0×10^9 個參數 RT-1|2022|3.5×10^7 個參數 CaLM|2022|8.6×10^7 個參數 Hybrid H3-2.7B|2022|2.7×10^9 個參數 VALL-E|2023|3.5×10^8 個參數 DreamerV3|2023|2.0×10^8 個參數 Ankh_large|2023|1.9×10^9 個參數 Nucleotide Transformer|2023|2.5×10^9 個參數 DDPM-IP (CelebA)|2023|3.0×10^8 個參數 MusicLM|2023|8.6×10^8 個參數 BLIP-2 (Q-Former)|2023|1.5×10^9 個參數 ViT-22B|2023|2.2×10^10 個參數 BASIC-L + Lion|2023|3.1×10^9 個參數 LLaMA-65B|2023|6.5×10^10 個參數 DiT-XL/2|2023|6.8×10^8 個參數 AudioGen|2023|1.0×10^9 個參數 PaLM-E|2023|5.6×10^11 個參數 Falcon-40B|2023|4.0×10^10 個參數 GPT-4 (Jun 2023)|2023|1.8×10^12 個參數 GPT-4 (Mar 2023)|2023|1.8×10^12 個參數 LEP-AD|2023|3.0×10^9 個參數 PanGu-Σ|2023|1.1×10^12 個參數 SigLIP 400M|2023|4.0×10^8 個參數 BloombergGPT|2023|5.1×10^10 個參數 VideoMAE V2|2023|1.0×10^9 個參數 Segment Anything Model|2023|6.4×10^8 個參數 Incoder-6.7B|2023|6.7×10^9 個參數 DINOv2|2023|1.1×10^9 個參數 LLaVA|2023|1.3×10^10 個參數 ImageBind|2023|9.3×10^8 個參數 PaLM 2|2023|3.4×10^11 個參數 StarCoder|2023|1.6×10^10 個參數 InstructBLIP|2023|1.3×10^10 個參數 CoEdiT-xxl|2023|1.1×10^10 個參數 Med-PaLM 2|2023|3.4×10^11 個參數 CodeT5+|2023|1.6×10^10 個參數 ONE-PEACE|2023|4.0×10^9 個參數 Goat-7B|2023|7.0×10^9 個參數 DPO on Pythia-2.8B|2023|2.8×10^9 個參數 PaLI-X|2023|5.5×10^10 個參數 MusicGen|2023|3.4×10^9 個參數 GPT-3.5 Turbo|2023|2.0×10^10 個參數 HyenaDNA|2023|6.6×10^6 個參數 Stable Diffusion XL (SDXL)|2023|3.4×10^9 個參數 InternLM|2023|1.0×10^11 個參數 Pangu-Weather|2023|2.6×10^8 個參數 xTrimoPGLM -100B|2023|1.0×10^11 個參數 GPT3-2.7B (FlashAttention-2)|2023|2.7×10^9 個參數 Llama 2-70B|2023|7.0×10^10 個參數 Llama 2-7B|2023|7.0×10^9 個參數 AudioLM|2023|1.5×10^9 個參數 RT-2|2023|5.5×10^10 個參數 Qwen-VL|2023|9.6×10^9 個參數 Jais|2023|1.3×10^10 個參數 Swift|2023|5.7×10^4 個參數 Falcon-180B|2023|1.8×10^11 個參數 Robot Parkour|2023|5.0×10^5 個參數 AlphaMissense|2023|9.3×10^7 個參數 Amazon Titan|2023|2.0×10^11 個參數 GPT-3.5 Turbo Instruct|2023|2.0×10^10 個參數 FinGPT-13B|2023|1.3×10^10 個參數 Ferret (13B)|2023|1.3×10^10 個參數 RT-2-X|2023|5.5×10^10 個參數 PaLI-3|2023|5.0×10^9 個參數 CODEFUSION (Python)|2023|7.5×10^7 個參數 ChatGLM3-6B|2023|6.0×10^9 個參數 DiT-XL/2 + CADS|2023|6.8×10^8 個參數 Skywork-13B|2023|1.3×10^10 個參數 BLUUMI|2023|1.8×10^11 個參數 Grok-1|2023|3.1×10^11 個參數 LLaVA 1.5|2023|1.3×10^10 個參數 Yi-34B|2023|3.4×10^10 個參數 CogVLM-17B|2023|1.7×10^10 個參數 RoFormer|2023|1.1×10^8 個參數 mPLUG-Owl2|2023|7.1×10^9 個參數 Nemotron-3-8B|2023|8.0×10^9 個參數 Qwen-Audio-Chat|2023|8.5×10^9 個參數 SPHINX (Llama 2 13B)|2023|2.0×10^10 個參數 Volcano 13B|2023|1.3×10^10 個參數 GNoME for crystal discovery|2023|1.6×10^7 個參數 PPLX-70B-Online|2023|7.0×10^10 個參數 Qwen-72B|2023|7.2×10^10 個參數 Mamba-24M (SC09)|2023|2.3×10^7 個參數 Llama Guard|2023|7.0×10^9 個參數 SeamlessM4T|2023|2.3×10^9 個參數 Mixtral 8x7B|2023|4.7×10^10 個參數 W.A.L.T|2023|4.7×10^9 個參數 CogAgent|2023|1.8×10^10 個參數 FunSearch|2023|1.5×10^10 個參數 VILA-13B|2023|1.3×10^10 個參數 Gemini Nano-1|2023|1.8×10^9 個參數 Gemini Nano-2|2023|3.3×10^9 個參數 nekomata-14b|2023|1.4×10^10 個參數 GQA-8-XXL|2023|1.1×10^10 個參數 CoRe|2023|1.2×10^10 個參數 Palmyra X 003|2024|7.2×10^10 個參數 AlphaGeometry|2024|1.5×10^8 個參數 Qwen-VL-Max|2024|7.0×10^9 個參數 Qwen1.5-72B|2024|7.2×10^10 個參數 Aya|2024|1.3×10^10 個參數 MegaScale (Production)|2024|5.3×10^11 個參數 Stable Diffusion 3|2024|8.0×10^9 個參數 Aramco Metabrain AI|2024|2.5×10^11 個參數 MM1-30B|2024|3.0×10^10 個參數 DBRX|2024|1.3×10^11 個參數 ReALM|2024|3.0×10^9 個參數 Reka Core|2024|6.7×10^10 個參數 Llama 3-70B|2024|7.0×10^10 個參數 VILA1.5-13B|2024|1.4×10^10 個參數 Yi-Large|2024|1.0×10^11 個參數 Octo-Base|2024|9.3×10^7 個參數 ALLaM adapted 70B|2024|7.0×10^10 個參數 Qwen2-72B|2024|7.3×10^10 個參數 Nemotron-4 340B|2024|3.4×10^11 個參數 OpenVLA|2024|7.2×10^9 個參數 DeepSeek-Coder-V2 236B|2024|2.4×10^11 個參數 Cambrian-1-34B|2024|3.4×10^10 個參數 ESM3 (98B)|2024|9.9×10^10 個參數 SenseChat 5.5|2024|6.0×10^11 個參數 Mathstral|2024|7.0×10^9 個參數 Llama 3.1-405B|2024|4.1×10^11 個參數 Mistral Large 2|2024|1.2×10^11 個參數 AFM-on-device|2024|2.7×10^9 個參數 LLaVA-OV-72B|2024|7.2×10^10 個參數 Table Tennis Agent|2024|1.9×10^5 個參數 Jamba 1.5-Large|2024|4.0×10^11 個參數 DeepSeek-V2.5|2024|2.4×10^11 個參數 Qwen2.5-32B|2024|3.3×10^10 個參數 Oryx 34B|2024|3.4×10^10 個參數 Qwen2.5 Instruct (72B)|2024|7.3×10^10 個參數 Qwen2.5-72B|2024|7.3×10^10 個參數 Telechat2-115B|2024|1.2×10^11 個參數 Llama 3.2 11B|2024|1.1×10^10 個參數 Movie Gen Video|2024|3.0×10^10 個參數 GR-2|2024|2.3×10^8 個參數 Palmyra X 004|2024|1.5×10^11 個參數 RDT-1B|2024|1.2×10^9 個參數 NVLM-D 72B|2024|7.2×10^10 個參數 NVLM-H 72B|2024|7.2×10^10 個參數 NVLM-X 72B|2024|7.2×10^10 個參數 Doubao-pro|2024|5.0×10^11 個參數 Hunyuan-Large|2024|3.9×10^11 個參數 Pixtral Large|2024|1.2×10^11 個參數 Fugatto 1|2024|2.5×10^9 個參數 Infinity|2024|2.0×10^9 個參數 Llama 3.3 70B|2024|7.0×10^10 個參數 NVILA 15B|2024|1.5×10^10 個參數 EXAONE 3.5 32B|2024|3.2×10^10 個參數 Apollo 7B|2024|7.0×10^9 個參數 DeepSeek-V3|2024|6.7×10^11 個參數 STORM-B/8|2025|1.0×10^8 個參數 INTELLECT-MATH|2025|7.0×10^9 個參數 DeepSeek-R1|2025|6.7×10^11 個參數 Eagle 2|2025|8.9×10^9 個參數 Eurus-2-7B-PRIME|2025|7.0×10^9 個參數 Grok 3|2025|3.0×10^12 個參數 QwQ-32B|2025|3.3×10^10 個參數 Hunyuan-TurboS|2025|5.6×10^11 個參數 ERNIE-4.5-VL-424B-A47B (文心大模型4.5)|2025|4.2×10^11 個參數 EXAONE Deep 32B|2025|3.2×10^10 個參數 DeepSeek-V3 (Mar 2025)|2025|6.7×10^11 個參數 Diffusion Renderer|2025|1.1×10^9 個參數 Llama 4 Behemoth (preview)|2025|2.0×10^12 個參數 Llama 4 Maverick|2025|4.0×10^11 個參數 Llama 4 Scout|2025|1.1×10^11 個參數 Pangu Ultra|2025|1.3×10^11 個參數 Qwen3-235B-A22B|2025|2.4×10^11 個參數 DeepSeek-R1 (May 2025)|2025|6.7×10^11 個參數 Qwen3 Embedding|2025|8.0×10^9 個參數 FGN|2025|7.2×10^8 個參數 Seed-1.6-Thinking|2025|2.3×10^11 個參數 EXAONE Path 2.0|2025|1.8×10^8 個參數 Grok 4|2025|3.0×10^12 個參數 Kimi K2|2025|1.0×10^12 個參數 EXAONE 4.0 (32B)|2025|3.2×10^10 個參數 Qwen3-Coder-480B-A35B|2025|4.8×10^11 個參數 Qwen3-235B-A22B (Jul 2025)|2025|2.4×10^11 個參數 Qwen3-235B-A22B-Thinking (Jul 2025)|2025|2.4×10^11 個參數 MindLink-72B|2025|7.2×10^10 個參數 GLM-4.5|2025|3.6×10^11 個參數 Hierarchical Reasoning Model (HPM)|2025|2.7×10^7 個參數 Qwen Image|2025|2.7×10^10 個參數 gpt-oss-120b|2025|1.2×10^11 個參數 gpt-oss-20b|2025|2.1×10^10 個參數 LongCat-Flash|2025|5.6×10^11 個參數 Qwen3-Max|2025|1.0×10^12 個參數 AgentFounder-30B|2025|3.0×10^10 個參數 Qwen3-Omni-30B-A3B|2025|3.5×10^10 個參數 GLM-4.6|2025|3.6×10^11 個參數 Ling-1T|2025|1.0×10^12 個參數 MiniMax-M2|2025|2.3×10^11 個參數 Tongyi DeepResearch|2025|3.1×10^10 個參數 Kimi K2 Thinking|2025|1.0×10^12 個參數 Olmo 3|2025|3.2×10^10 個參數 P1-235B-A22B|2025|2.4×10^11 個參數 π0.6 (pi-0.6)|2025|5.3×10^9 個參數 DeepSeekMath-V2|2025|6.9×10^11 個參數 Nemotron 3-Nano-30B-A3B|2025|3.2×10^10 個參數 GLM-4.7|2025|3.6×10^11 個參數 MiniMax-M2.1|2025|2.3×10^11 個參數 A.X K1|2025|5.2×10^11 個參數 HyperCLOVA X SEED 32B Think|2025|3.2×10^10 個參數 |2025|1.0×10^11 個參數 K-EXAONE|2026|2.4×10^11 個參數 |2026|1.0×10^11 個參數 Kimi K2.5|2026|1.0×10^12 個參數 Qwen3-Coder-Next|2026|8.0×10^10 個參數 Qwen3.5 397B-A17B|2026|4.0×10^11 個參數 GLM-5|2026|7.4×10^11 個參數 Grok 4.20|2026|5.0×10^11 個參數 Qwen3.5-122B-A10B|2026|1.2×10^11 個參數 Nemotron 3 Super|2026|1.2×10^11 個參數 Composer 2|2026|1.0×10^12 個參數 MiMo-V2-Pro|2026|1.0×10^12 個參數 GLM-5.1|2026|7.5×10^11 個參數 Kimi K2.6|2026|1.0×10^12 個參數 DeepSeek-V4-Flash|2026|2.8×10^11 個參數 DeepSeek-V4-Pro|2026|1.6×10^12 個參數 MiMo-V2.5-Pro|2026|1.0×10^12 個參數 TML-Interaction-Small|2026|2.8×10^11 個參數 Composer 2.5|2026|1.0×10^12 個參數 Nemotron 3 Ultra|2026|5.5×10^11 個參數 產業界 學術界 產學合作 其他 每個點為一個知名 AI 模型,縱軸=可訓練參數量(對數軸),按開發方類型著色;共 702 個模型。 訓練數據量趨勢 訓練數據集的樣本 / token 規模——喂進模型的樣本 / token 規模。數據量與算力、參數量一同增長,是規模定律的第三根支柱。
1 10³ 10⁶ 10⁹ 10¹² 10¹⁵ 1960 1980 2000 2020 發佈年份 訓練數據量(個樣本,對數軸) Theseus|1950|4.0×10^1 個樣本 Self Organizing System|1955|2.0×10^0 個樣本 Perceptron Mark I|1957|1.0×10^2 個樣本 Pattern recognition and reading by machine|1959|1.8×10^2 個樣本 Perceptron (1960)|1960|1.0×10^2 個樣本 ADALINE|1960|1.0×10^2 個樣本 Linear Decision Functions|1962|5.0×10^2 個樣本 MADALINE I|1962|2.6×10^2 個樣本 LTE speaker verification system|1966|4.2×10^2 個樣本 GLEE|1968|6.0×10^3 個樣本 Piecewise linear model|1973|3.1×10^2 個樣本 Cognitron|1975|5.0×10^0 個樣本 Neocognitron|1980|5.0×10^0 個樣本 Kohonen network|1981|4.0×10^3 個樣本 ASE+ACE|1983|5.0×10^5 個樣本 Hierarchical Cognitron|1984|5.0×10^0 個樣本 Error Propagation|1986|6.4×10^1 個樣本 Distributed representation NN|1986|1.0×10^2 個樣本 MLP with back-propagation|1986|1.0×10^2 個樣本 NetTalk (dictionary)|1987|5.0×10^3 個樣本 NetTalk (transcription)|1987|5.1×10^3 個樣本 Translation-invariant MLP|1987|1.6×10^2 個樣本 MLN-ASR|1988|1.3×10^4 個樣本 MLP baggage detector|1989|2.0×10^4 個樣本 Q-learning|1989|2.0×10^5 個樣本 Handwritten digit recognition network|1989|9.8×10^3 個樣本 Speaker-independent vowel classification|1989|4.1×10^3 個樣本 Zip CNN|1989|7.3×10^3 個樣本 NETtalk reimplementation|1990|7.2×10^3 個樣本 Bankruptcy-NN|1990|7.4×10^1 個樣本 ISR network|1990|6.0×10^5 個樣本 SexNet classification|1990|8.0×10^1 個樣本 SexNet compression|1990|8.1×10^4 個樣本 RAAM|1990|2.9×10^1 個樣本 Weight Decay|1991|2.5×10^4 個樣本 TD-Gammon|1992|6.3×10^6 個樣本 Golem|1992|1.6×10^3 個樣本 Cancer drug mechanism prediction|1992|1.4×10^2 個樣本 Boosting|1992|2.9×10^4 個樣本 IBM-5|1993|2.9×10^7 個樣本 Siamese-TDNN|1993|7.7×10^3 個樣本 ANN Eye Tracker|1993|4.0×10^3 個樣本 Ceramic-MLP|1994|8.0×10^1 個樣本 JPMAX|1994|1.5×10^3 個樣本 Mixture of linear models|1994|1.8×10^6 個樣本 NeuroChess|1994|9.6×10^6 個樣本 Predictive Coding NN|1994|6.0×10^5 個樣本 Support Vector Machines|1995|6.0×10^4 個樣本 LISSOM|1995|2.0×10^3 個樣本 MUSIC perceptron|1996|8.1×10^4 個樣本 System 11|1996|2.4×10^4 個樣本 AdaBoost.M2 Digit Recognition|1996|9.7×10^3 個樣本 SOM-CNN|1997|1.3×10^5 個樣本 Bidirectional RNN|1997|1.4×10^5 個樣本 LSTM|1997|8.5×10^5 個樣本 LeNet-5|1998|6.0×10^4 個樣本 LSTM with forget gates|1999|1.4×10^8 個樣本 RECONTRA-categorized|1999|4.0×10^4 個樣本 RECONTRA-uncategorized|1999|5.8×10^4 個樣本 IBM Model 4|1999|8.0×10^5 個樣本 Neural LM|2000|3.2×10^7 個樣本 PoE MNIST|2000|5.4×10^4 個樣本 Gradient Boosting Machine|2001|5.0×10^3 個樣本 Decision tree (classification)|2001|7.5×10^5 個樣本 Thumbs Up?|2002|1.4×10^3 個樣本 NPLM (AP News)|2003|1.4×10^7 個樣本 NPLM (Brown)|2003|1.4×10^7 個樣本 Invariant CNN|2004|2.4×10^4 個樣本 LMICA|2004|1.0×10^5 個樣本 Hierarchical LM|2005|9.0×10^5 個樣本 Histograms of Oriented Gradients|2005|1.5×10^4 個樣本 RankNet|2005|3.5×10^6 個樣本 TFE SVM|2006|6.0×10^5 個樣本 SVM-CNN|2006|5.8×10^5 個樣本 Spatial Pyramid Matching|2006|3.0×10^3 個樣本 Deep Belief Nets|2006|4.7×10^7 個樣本 Dimensionality Reduction|2006|4.7×10^7 個樣本 Greedy layer-wise DNN training|2006|1.1×10^8 個樣本 Local Binary Patterns for facial recognition|2006|7.4×10^2 個樣本 KN-LM|2007|3.1×10^10 個樣本 SB-LM|2007|1.8×10^12 個樣本 BLSTM for handwriting (1)|2007|4.1×10^5 個樣本 Enhanced Neighborhood-Based Filtering|2007|1.0×10^8 個樣本 BLSTM for handwriting (2)|2007|3.3×10^6 個樣本 Deep Multitask NLP Network|2008|6.3×10^8 個樣本 Denoising Autoencoders|2008|7.8×10^6 個樣本 HLBL|2008|1.4×10^7 個樣本 GNN|2008|2.1×10^2 個樣本 RBM Image Classifier|2009|6.1×10^9 個樣本 GPU DBNs|2009|1.2×10^11 個樣本 MatrixFac for Recommenders|2009|1.0×10^8 個樣本 Two Stage Feature Extraction (MNIST)|2009|5.0×10^4 個樣本 LCNP LabelMe|2009|4.0×10^4 個樣本 LCNP MNIST|2009|5.0×10^4 個樣本 LCNP NORB|2009|2.4×10^4 個樣本 Stacked Denoising Autoencoders|2010|3.4×10^8 個樣本 Feedforward NN|2010|9.0×10^4 個樣本 ReLU (LFW)|2010|2.3×10^5 個樣本 ReLU (NORB)|2010|2.9×10^5 個樣本 iCCCP|2010|1.0×10^4 個樣本 Pooling CNN (Caltech 101)|2010|3.1×10^3 個樣本 Pooling CNN (NORB)|2010|2.4×10^4 個樣本 RNN LM|2010|6.4×10^6 個樣本 Deep rectifier networks|2011|8.2×10^7 個樣本 Deep Autoencoders|2011|4.9×10^9 個樣本 Vector Space Model|2011|5.7×10^6 個樣本 Recursive Neural Network|2011|5.7×10^5 個樣本 High Performance CNN (NORB)|2011|5.0×10^4 個樣本 CNN Committee (MNIST)|2011|4.2×10^5 個樣本 CNN Committee (NIST)|2011|3.4×10^6 個樣本 Adaptive Subgrad|2011|8.0×10^5 個樣本 CNN committee (traffic sign)|2011|5.3×10^4 個樣本 NLP from scratch|2011|8.5×10^8 個樣本 Dropout (CIFAR)|2012|6.0×10^4 個樣本 Dropout (ImageNet)|2012|2.6×10^6 個樣本 Dropout (MNIST)|2012|6.0×10^4 個樣本 Unsupervised High-level Feature Learner|2012|1.2×10^12 個樣本 Context-dependent RNN|2012|3.7×10^7 個樣本 LSTM LM|2012|2.7×10^7 個樣本 AlexNet|2012|2.5×10^9 個樣本 Bayesian automated hyperparameter tuning|2012|5.0×10^4 個樣本 DNN EM segmentation|2012|3.0×10^6 個樣本 DistBelief Speech|2012|1.1×10^9 個樣本 DistBelief Vision|2012|1.6×10^7 個樣本 RNN+LDA+KN5+cache|2012|9.3×10^5 個樣本 DistBelief NNLM|2013|6.0×10^9 個樣本 Multilingual DNN|2013|3.1×10^9 個樣本 Hierarchical Scene Labeling (Stanford Background)|2013|7.1×10^7 個樣本 RCTM|2013|4.5×10^6 個樣本 RNTN|2013|1.6×10^5 個樣本 Word2Vec (large)|2013|3.3×10^11 個樣本 Word2Vec (small)|2013|1.0×10^10 個樣本 Visualizing CNNs|2013|7.7×10^6 個樣本 DeViSE|2013|5.4×10^9 個樣本 TransE|2013|1.8×10^7 個樣本 RNN for 1B words|2013|1.0×10^9 個樣本 DQN|2013|1.6×10^8 個樣本 Network in Network|2013|6.3×10^5 個樣本 Image generation|2013|4.7×10^7 個樣本 GloVe (32B)|2014|3.2×10^8 個樣本 GloVe (6B)|2014|6.6×10^7 個樣本 HyperNEAT|2014|7.5×10^8 個樣本 Paragraph Vector|2014|1.6×10^7 個樣本 AdaRNN|2014|6.3×10^3 個樣本 Dropout: SVHN|2014|6.0×10^5 個樣本 GANs|2014|1.2×10^5 個樣本 Two-stream ConvNets for action recognition|2014|1.3×10^6 個樣本 SPPNet|2014|1.3×10^6 個樣本 DeepFace|2014|4.4×10^6 個樣本 Fragment embedding|2014|1.5×10^7 個樣本 Multiresolution CNN|2014|5.0×10^7 個樣本 ACF-WIDER|2014|1.4×10^5 個樣本 NPD|2014|4.4×10^5 個樣本 RNNsearch-50*|2014|2.3×10^8 個樣本 VGG16|2014|1.3×10^6 個樣本 VGG19|2014|1.3×10^6 個樣本 Seq2Seq LSTM|2014|8.7×10^8 個樣本 SPN-4+KN5|2014|9.3×10^5 個樣本 Deeply-supervised nets|2014|6.0×10^5 個樣本 GoogLeNet / InceptionV1|2014|5.7×10^11 個樣本 Spatially-Sparse CNN|2014|9.0×10^5 個樣本 LRCN|2014|4.0×10^5 個樣本 SC-NLM|2014|5.0×10^6 個樣本 Cascaded LNet-ANet|2014|9.3×10^6 個樣本 TA-CNN|2014|4.5×10^4 個樣本 SNM-skip|2014|8.0×10^8 個樣本 Fractional Max-Pooling|2014|9.0×10^5 個樣本 ADAM (CIFAR-10)|2014|5.0×10^4 個樣本 VGG-Face|2015|2.6×10^6 個樣本 MSRA (C, PReLU)|2015|1.3×10^6 個樣本 DQN-2015|2015|1.2×10^7 個樣本 genCNN + dyn eval|2015|9.3×10^5 個樣本 TC-DNN-BLSTM-DNN|2015|2.9×10^7 個樣本 Fast R-CNN|2015|2.6×10^7 個樣本 U-Net|2015|7.9×10^6 個樣本 Faster R-CNN|2015|1.0×10^8 個樣本 CFSS|2015|1.4×10^5 個樣本 BatchNorm|2015|1.2×10^10 個樣本 Deep CNN + COTS|2015|4.9×10^5 個樣本 DCNN|2015|4.9×10^5 個樣本 BPE|2015|5.0×10^7 個樣本 AlphaGo Fan|2015|1.3×10^10 個樣本 SAF R-CNN|2015|3.5×10^5 個樣本 3DDFA|2015|2.9×10^5 個樣本 Inception v3|2015|1.2×10^6 個樣本 SSD|2015|2.3×10^6 個樣本 ResNet-101 (ImageNet)|2015|1.3×10^6 個樣本 ResNet-110 (CIFAR-10)|2015|5.0×10^4 個樣本 ResNet-152 (ImageNet)|2015|1.3×10^6 個樣本 Advantage Learning|2015|1.0×10^8 個樣本 Variational (untied weights, MC) LSTM (Large)|2015|9.3×10^5 個樣本 AlphaGo Lee|2016|3.0×10^8 個樣本 A3C FF hs|2016|2.0×10^8 個樣本 Inception-ResNet-V2|2016|1.3×10^6 個樣本 Inceptionv4|2016|1.3×10^6 個樣本 SqueezeNet|2016|1.3×10^6 個樣本 Named Entity Recognition model|2016|2.1×10^5 個樣本 |2016|7.8×10^3 個樣本 Gated HORNN (3rd order)|2016|2.2×10^7 個樣本 LRR-4X|2016|1.5×10^8 個樣本 PixelCNN|2016|1.6×10^10 個樣本 R-FCN|2016|1.1×10^7 個樣本 CCL|2016|2.0×10^4 個樣本 SimpleNet|2016|1.3×10^6 個樣本 LF-MMI|2016|7.2×10^5 個樣本 MS-ensemble-speech-recognition|2016|1.1×10^10 個樣本 WaveNet|2016|1.2×10^10 個樣本 ResNet-1001|2016|5.0×10^4 個樣本 ResNet-200|2016|1.3×10^6 個樣本 Wide Residual Network|2016|1.3×10^6 個樣本 GNMT|2016|7.2×10^8 個樣本 Pointer Sentinel-LSTM (medium)|2016|9.3×10^5 個樣本 GAWWN|2016|2.4×10^5 個樣本 Xception|2016|3.5×10^8 個樣本 SPIDER2|2016|1.4×10^7 個樣本 BIDAF|2016|8.8×10^5 個樣本 NAS with base 8 and shared embeddings|2016|9.3×10^5 個樣本 NASv3 (CIFAR-10)|2016|4.5×10^4 個樣本 VD-LSTM+REAL Large|2016|9.3×10^5 個樣本 DLDL (PASCAL)|2016|2.3×10^4 個樣本 DTN (Domain Transfer Network)|2016|2.0×10^6 個樣本 DAC-CSR|2016|2.0×10^4 個樣本 ResNeXt-101 (64×4d)|2016|1.3×10^6 個樣本 ResNeXt-50|2016|1.3×10^6 個樣本 PolyNet|2016|1.3×10^6 個樣本 Image-to-image cGAN|2016|2.4×10^6 個樣本 PointNet|2016|9.8×10^3 個樣本 3DMM-CNN|2016|5.0×10^5 個樣本 HR-ResNet101|2016|8.2×10^6 個樣本 EnhanceNet|2016|9.8×10^9 個樣本 YOLOv2|2016|1.3×10^6 個樣本 DeepStack|2017|2.5×10^10 個樣本 OR-WideResNet|2017|5.0×10^4 個樣本 MoE-Multi|2017|8.7×10^10 個樣本 DnCNN|2017|2.6×10^9 個樣本 Prototypical networks|2017|3.8×10^4 個樣本 Mask R-CNN|2017|4.6×10^10 個樣本 MobileNet|2017|1.3×10^6 個樣本 DeepLab (2017)|2017|2.6×10^7 個樣本 Mnemonic Reader|2017|2.2×10^5 個樣本 SRGAN|2017|7.0×10^5 個樣本 Inflated 3D ConvNet|2017|2.4×10^5 個樣本 PointNet++|2017|6.0×10^4 個樣本 Reading Twice for NLU|2017|2.0×10^5 個樣本 Transformer (2017)|2017|8.3×10^8 個樣本 HRA|2017|1.5×10^8 個樣本 DeepLabV3|2017|8.4×10^9 個樣本 NoisyNet-Dueling|2017|3.2×10^8 個樣本 ShuffleNet v1|2017|1.3×10^6 個樣本 JFT|2017|5.5×10^12 個樣本 AWD-LSTM|2017|2.0×10^6 個樣本 NASNet-A|2017|1.3×10^6 個樣本 ConvS2S (ensemble of 8 models)|2017|1.2×10^9 個樣本 GSM|2017|2.2×10^5 個樣本 AWD-LSTM - 3-layer LSTM (tied) + continuous cache pointer (WT2)|2017|2.0×10^6 個樣本 RetinaNet-R101|2017|1.2×10^5 個樣本 RetinaNet-R50|2017|1.2×10^10 個樣本 EI-REHN-1000D|2017|9.3×10^5 個樣本 NeuMF (Pinterest)|2017|1.5×10^6 個樣本 GL-LWGC-AWD-MoS-LSTM + dynamic evaluation (WT2)|2017|2.0×10^6 個樣本 PyramidNet|2017|1.3×10^6 個樣本 SENet (ImageNet)|2017|1.3×10^6 個樣本 ISS|2017|9.3×10^5 個樣本 LSTM + dynamic eval|2017|9.0×10^7 個樣本 AWD-LSTM+WT+Cache+IOG (WT2)|2017|2.0×10^6 個樣本 AlphaGo Zero|2017|6.4×10^9 個樣本 PhraseCond|2017|1.6×10^5 個樣本 S-Norm|2017|1.1×10^6 個樣本 DCN+|2017|2.2×10^5 個樣本 Fraternal dropout + AWD-LSTM 3-layer (WT2)|2017|2.0×10^6 個樣本 VQ-VAE|2017|6.3×10^10 個樣本 AWD-LSTM-MoS + dynamic evaluation (WT2, 2017)|2017|2.0×10^6 個樣本 TriNet|2017|5.1×10^5 個樣本 DL scaling LM|2017|4.0×10^8 個樣本 DL scaling speech|2017|2.2×10^9 個樣本 AlphaZero|2017|3.5×10^9 個樣本 ELMo|2018|2.0×10^9 個樣本 QRNN|2018|1.0×10^8 個樣本 T-DMCA|2018|1.4×10^10 個樣本 DeepLabV3+|2018|8.7×10^9 個樣本 IMPALA|2018|1.1×10^10 個樣本 TCN (P-MNIST)|2018|6.0×10^4 個樣本 4 layer QRNN (h=2500)|2018|1.0×10^8 個樣本 YOLOv3|2018|5.4×10^6 個樣本 Dropout-LSTM+Noise(Bernoulli) (WT2)|2018|2.0×10^6 個樣本 ResNeXt-101 32x48d|2018|9.4×10^8 個樣本 aLSTM(depth-2)+RecurrentPolicy (WT2)|2018|2.0×10^6 個樣本 GPT-1|2018|1.3×10^9 個樣本 Relational Memory Core|2018|4.0×10^9 個樣本 MobileNetV2|2018|1.3×10^6 個樣本 FTW (For The Win)|2018|2.0×10^9 個樣本 Big-Little Net|2018|1.3×10^6 個樣本 Big-Little Net (speech)|2018|7.2×10^8 個樣本 AWD-LSTM-MoS+PDR + dynamic evaluation (WT2)|2018|2.0×10^6 個樣本 Big Transformer for Back-Translation|2018|4.5×10^9 個樣本 (ensemble): AWD-LSTM-DOC (fin) × 5 (WT2)|2018|2.0×10^6 個樣本 AWD-LSTM-MoS + dynamic evaluation (WT2, 2018)|2018|2.0×10^6 個樣本 Transformer + Simple Recurrent Unit|2018|1.1×10^8 個樣本 LSTM+NeuralCache|2018|2.0×10^6 個樣本 Transformer (Adaptive Input Embeddings) WT103|2018|1.0×10^8 個樣本 BERT-Large|2018|2.7×10^9 個樣本 TrellisNet|2018|1.0×10^8 個樣本 MemoReader|2018|1.1×10^6 個樣本 Mesh-TensorFlow Transformer 2.9B (translation)|2018|1.6×10^9 個樣本 Mesh-TensorFlow Transformer 4.9B (language)|2018|5.0×10^9 個樣本 Fine-tuned-AWD-LSTM-DOC (fin)|2018|1.0×10^6 個樣本 GPipe (Transformer)|2018|1.5×10^12 個樣本 Multi-cell LSTM|2018|9.3×10^5 個樣本 SPN (ImageNet 128)|2018|2.5×10^11 個樣本 StyleGAN|2018|5.0×10^7 個樣本 Transformer ELMo|2019|2.0×10^9 個樣本 Transformer-XL (257M)|2019|1.0×10^8 個樣本 Hanabi 4 player|2019|2.0×10^10 個樣本 MT-DNN|2019|1.0×10^6 個樣本 GPT-2 (1.5B)|2019|1.1×10^10 個樣本 KataGo|2019|2.4×10^8 個樣本 SciBERT|2019|3.2×10^9 個樣本 True-Regularization+Finetune+Dynamic-Eval|2019|9.3×10^5 個樣本 WeNet (Penn Treebank)|2019|9.3×10^5 個樣本 Transformer-XL + RMS dynamic eval|2019|1.0×10^8 個樣本 BERT-Large-CAS (PTB+WT2+WT103)|2019|1.3×10^9 個樣本 Neuro-Symbolic Concept Learner|2019|1.0×10^5 個樣本 ResNeXt-101 Billion-scale|2019|9.0×10^7 個樣本 AWD-LSTM-DRILL + dynamic evaluation† (WT2)|2019|2.0×10^6 個樣本 EfficientNet-L2|2019|1.3×10^6 個樣本 DLRM-2020|2019|3.9×10^7 個樣本 XLNet|2019|3.3×10^10 個樣本 Transformer-XL Large + Phrase Induction|2019|1.0×10^8 個樣本 AWD-LSTM + MoS + Partial Shuffled|2019|2.0×10^6 個樣本 Char-CNN-BiLSTM|2019|9.3×10^5 個樣本 FixRes ResNeXt-101 WSL|2019|9.4×10^8 個樣本 LaNet-L (CIFAR-10)|2019|6.0×10^4 個樣本 BigBiGAN|2019|2.6×10^6 個樣本 RoBERTa Large|2019|4.3×10^10 個樣本 Mogrifier (d2, MoS2, MC) + dynamic eval|2019|2.0×10^6 個樣本 UDSMProt|2019|1.5×10^8 個樣本 Megatron-BERT|2019|7.0×10^9 個樣本 Megatron-LM (1.2B)|2019|1.6×10^11 個樣本 Megatron-LM (8.3B)|2019|4.6×10^10 個樣本 ALBERT|2019|3.3×10^9 個樣本 Adaptive Inputs + LayerDrop|2019|1.0×10^8 個樣本 AlphaX-1|2019|6.1×10^7 個樣本 DistilBERT|2019|5.0×10^8 個樣本 T5-11B|2019|3.4×10^10 個樣本 T5-3B|2019|5.1×10^9 個樣本 BART-large|2019|4.3×10^10 個樣本 Base LM + kNN LM + Continuous Cache|2019|1.0×10^8 個樣本 XLM-RoBERTa|2019|1.7×10^11 個樣本 CamemBERT|2019|2.9×10^10 個樣本 Noisy Student (L2)|2019|8.1×10^7 個樣本 Sandwich Transformer|2019|7.0×10^8 個樣本 MoCo|2019|9.4×10^8 個樣本 MuZero|2019|1.2×10^10 個樣本 Transformer - LibriVox + Decoding/Rescoring|2019|9.8×10^8 個樣本 Photo-Geometric Autoencoder|2019|8.2×10^8 個樣本 Transformer-XL DeFINE (141M)|2019|1.0×10^8 個樣本 StarGAN v2|2019|4.0×10^5 個樣本 StyleGAN2|2019|1.1×10^8 個樣本 MMLSTM (PTB)|2019|9.3×10^5 個樣本 MMLSTM (WT-2)|2019|2.0×10^6 個樣本 OpenAI Five|2019|4.5×10^11 個樣本 OpenAI Five Rerun|2019|5.3×10^10 個樣本 DD-PPO|2019|2.5×10^9 個樣本 Big Transfer (BiT-L)|2019|3.0×10^8 個樣本 AlphaFold|2020|6.6×10^9 個樣本 Meena|2020|5.3×10^10 個樣本 Perceiver IO (optical flow)|2020|1.5×10^11 個樣本 TaLK Convolution|2020|1.0×10^8 個樣本 Theseus 6/768|2020|3.9×10^5 個樣本 ALBERT-xxlarge|2020|3.3×10^9 個樣本 FFN SwiGLU|2020|5.1×10^10 個樣本 SimCLR|2020|1.1×10^10 個樣本 Turing-NLG|2020|4.6×10^10 個樣本 Feedback Transformer|2020|1.0×10^8 個樣本 TCAN (WT2)|2020|2.0×10^6 個樣本 Routing Transformer (WT-103)|2020|1.0×10^8 個樣本 TransformerXL + spectrum control|2020|1.0×10^8 個樣本 Tensor-Transformer(1core)+PN (WT103)|2020|1.0×10^8 個樣本 ELECTRA|2020|3.3×10^10 個樣本 MetNet|2020|7.1×10^9 個樣本 Go-explore|2020|4.0×10^10 個樣本 Once for All|2020|1.3×10^6 個樣本 ContextNet|2020|3.5×10^8 個樣本 Retrieval-Augmented Generator|2020|3.1×10^6 個樣本 DETR|2020|8.3×10^5 個樣本 GPT-3 175B (davinci)|2020|2.4×10^11 個樣本 GShard (dense)|2020|3.5×10^11 個樣本 DeLighT|2020|1.0×10^8 個樣本 ERNIE-GEN (large)|2020|1.2×10^11 個樣本 ProBERTa|2020|5.8×10^7 個樣本 LUKE|2020|4.7×10^9 個樣本 German ELECTRA Large|2020|3.6×10^10 個樣本 mT5-XXL|2020|1.0×10^12 個樣本 ViT-Base/32|2020|3.0×10^8 個樣本 ViT-Huge/14|2020|3.0×10^8 個樣本 wave2vec 2.0 LARGE|2020|4.6×10^9 個樣本 KEPLER|2020|3.5×10^9 個樣本 AlphaFold 2|2020|5.7×10^9 個樣本 CPM-Large|2020|1.7×10^10 個樣本 ESM1b|2020|2.8×10^10 個樣本 VQGAN + CLIP|2020|2.5×10^11 個樣本 CT-MoS (WT2)|2020|2.0×10^6 個樣本 DensePhrases|2020|5.8×10^7 個樣本 ERNIE-Doc (247M)|2021|1.0×10^8 個樣本 CLIP (ResNet-50)|2021|4.0×10^8 個樣本 CLIP (ViT L/14@336px)|2021|4.0×10^8 個樣本 DALL-E|2021|3.2×10^11 個樣本 BigSSL|2021|1.0×10^11 個樣本 Switch|2021|8.6×10^10 個樣本 DeiT-B|2021|3.8×10^6 個樣本 top-down frozen classifier|2021|3.4×10^6 個樣本 MSA Transformer|2021|1.4×10^12 個樣本 SRU++ Large|2021|1.0×10^8 個樣本 Meta Pseudo Labels|2021|1.3×10^8 個樣本 Generative BST|2021|5.7×10^10 個樣本 M6-T|2021|1.1×10^11 個樣本 PLUG|2021|6.0×10^10 個樣本 ProtBERT-BFD|2021|5.9×10^10 個樣本 ProtT5-XL-U50|2021|2.0×10^10 個樣本 ADM|2021|1.3×10^14 個樣本 MedBERT|2021|1.5×10^10 個樣本 ByT5-XXL|2021|1.1×10^12 個樣本 CogView|2021|9.7×10^11 個樣本 Transformer local-attention (NesT-B)|2021|1.3×10^6 個樣本 ViT-G/14|2021|3.0×10^9 個樣本 ALIGN|2021|1.8×10^9 個樣本 CoAtNet|2021|8.9×10^13 個樣本 DeBERTa|2021|2.1×10^10 個樣本 Denoising Diffusion Probabilistic Models (LSUN Bedroom)|2021|6.0×10^11 個樣本 EMDR|2021|1.7×10^11 個樣本 StyleGAN3-R|2021|5.0×10^7 個樣本 StyleGAN3-T|2021|5.0×10^7 個樣本 Fold2Seq|2021|4.6×10^4 個樣本 Adaptive Input Transformer + RD|2021|1.0×10^8 個樣本 Codex|2021|5.3×10^10 個樣本 ERNIE 3.0|2021|3.8×10^11 個樣本 GOAT|2021|8.0×10^14 個樣本 HuBERT|2021|8.6×10^8 個樣本 SEER|2021|1.0×10^9 個樣本 6-Act Tether|2021|1.3×10^8 個樣本 YOLOX-X|2021|2.5×10^6 個樣本 Jurassic-1-Jumbo|2021|3.0×10^11 個樣本 DNABERT|2021|1.4×10^9 個樣本 XLMR-XXL|2021|1.7×10^11 個樣本 FLAN 137B|2021|2.5×10^12 個樣本 MEB|2021|5.0×10^11 個樣本 PermuteFormer|2021|1.0×10^8 個樣本 HyperCLOVA 204B|2021|5.6×10^11 個樣本 PLATO-XL|2021|1.5×10^11 個樣本 AlphaFold-Multimer|2021|5.7×10^7 個樣本 Megatron-Turing NLG 530B|2021|2.7×10^11 個樣本 Yuan 1.0|2021|1.8×10^11 個樣本 base LM+GNN+kNN|2021|1.0×10^8 個樣本 Eve|2021|2.4×10^10 個樣本 EfficientZero|2021|1.0×10^5 個樣本 Projected GAN|2021|3.0×10^6 個樣本 S4|2021|1.0×10^8 個樣本 ViT-G/14 (LiT)|2021|1.0×10^12 個樣本 BASIC-L|2021|8.9×10^12 個樣本 Florence|2021|7.5×10^9 個樣本 NÜWA|2021|5.6×10^9 個樣本 Gopher (280B)|2021|3.0×10^11 個樣本 Student of Games|2021|2.5×10^11 個樣本 GLaM|2021|6.0×10^11 個樣本 LongT5|2021|5.2×10^11 個樣本 Contriever|2021|2.6×10^11 個樣本 LDM-1.45B|2021|2.9×10^11 個樣本 XGLM-7.5B|2021|5.0×10^11 個樣本 ERNIE 3.0 Titan|2021|6.7×10^11 個樣本 data2vec (language)|2022|1.3×10^11 個樣本 data2vec (speech)|2022|1.8×10^7 個樣本 data2vec (vision)|2022|2.5×10^8 個樣本 OntoProtein|2022|2.9×10^9 個樣本 InstructGPT 175B|2022|1.7×10^7 個樣本 AlphaCode|2022|9.7×10^11 個樣本 RETRO-7B|2022|4.2×10^11 個樣本 GPT-NeoX-20B|2022|3.4×10^11 個樣本 LaMDA|2022|2.1×10^12 個樣本 ProteinBERT|2022|3.8×10^10 個樣本 ST-MoE|2022|1.5×10^12 個樣本 PolyCoder|2022|3.9×10^10 個樣本 DeepNet|2022|2.7×10^11 個樣本 Statement Curriculum Learning|2022|3.7×10^11 個樣本 ViT-G (model soup)|2022|1.8×10^9 個樣本 Make-A-Scene|2022|2.7×10^11 個樣本 Segatron-XL large, M=384 + HCP|2022|1.0×10^8 個樣本 Chinchilla|2022|1.4×10^12 個樣本 PaLM (540B)|2022|7.8×10^11 個樣本 DALL·E 2|2022|1.7×10^11 個樣本 Sparse all-MLP|2022|1.0×10^11 個樣本 Flamingo|2022|4.6×10^11 個樣本 OPT-175B|2022|1.8×10^11 個樣本 UL2|2022|1.0×10^12 個樣本 Gato|2022|5.2×10^11 個樣本 SimCSE|2022|2.7×10^7 個樣本 GPT-2 Medium (FlashAttention)|2022|1.0×10^10 個樣本 Tranception|2022|4.8×10^10 個樣本 CogVideo|2022|1.5×10^11 個樣本 DITTO|2022|1.0×10^8 個樣本 CoCa|2022|1.4×10^12 個樣本 MetaLM|2022|6.5×10^11 個樣本 Parti|2022|4.7×10^12 個樣本 ProGen2-xlarge|2022|3.5×10^11 個樣本 Minerva (540B)|2022|2.6×10^10 個樣本 CodeT5-large|2022|1.1×10^10 個樣本 NLLB|2022|3.0×10^11 個樣本 BLOOM-176B|2022|3.8×10^11 個樣本 ESM2-15B|2022|1.5×10^10 個樣本 OmegaPLM|2022|1.3×10^12 個樣本 AlexaTM 20B|2022|1.3×10^12 個樣本 GLM-130B|2022|1.5×10^11 個樣本 BlenderBot 3|2022|1.3×10^9 個樣本 PaLI|2022|1.4×10^11 個樣本 Whisper|2022|1.2×10^10 個樣本 DiffDock|2022|4.4×10^6 個樣本 GenSLM|2022|2.3×10^11 個樣本 Flan-PaLM 540B|2022|1.4×10^9 個樣本 LMSI-Palm|2022|1.9×10^6 個樣本 U-PaLM (540B)|2022|1.3×10^9 個樣本 Mogrifier RLSTM (WT2)|2022|2.7×10^6 個樣本 eDiff-I|2022|1.6×10^12 個樣本 mT0-13B|2022|2.0×10^10 個樣本 InternImage|2022|8.4×10^10 個樣本 EVA-01|2022|7.6×10^9 個樣本 Galactica|2022|1.1×10^11 個樣本 Fusion in Encoder|2022|9.6×10^5 個樣本 ALM 1.0|2022|2.3×10^10 個樣本 DiT-XL/2 + Discriminator Guidance|2022|3.3×10^8 個樣本 Discriminator Guidance|2022|3.3×10^8 個樣本 DeepNash|2022|2.1×10^12 個樣本 Vega v2|2022|6.4×10^9 個樣本 CaLM|2022|2.5×10^9 個樣本 Hybrid H3-2.7B|2022|4.0×10^11 個樣本 VALL-E|2023|7.7×10^10 個樣本 DreamerV3|2023|1.6×10^9 個樣本 Ankh_large|2023|1.4×10^10 個樣本 Nucleotide Transformer|2023|3.0×10^11 個樣本 DDPM-IP (CelebA)|2023|8.3×10^8 個樣本 BLIP-2 (Q-Former)|2023|2.3×10^9 個樣本 ProteinDT|2023|1.3×10^8 個樣本 ViT-22B|2023|4.0×10^9 個樣本 LLaMA-65B|2023|1.4×10^12 個樣本 AudioGen|2023|2.3×10^11 個樣本 Falcon-40B|2023|1.0×10^12 個樣本 GPT-4 (Jun 2023)|2023|5.4×10^12 個樣本 GPT-4 (Mar 2023)|2023|5.4×10^12 個樣本 LEP-AD|2023|1.2×10^6 個樣本 PanGu-Σ|2023|3.3×10^11 個樣本 SigLIP 400M|2023|6.7×10^12 個樣本 BloombergGPT|2023|5.7×10^11 個樣本 VideoMAE V2|2023|1.2×10^9 個樣本 Segment Anything Model|2023|1.1×10^9 個樣本 Incoder-6.7B|2023|5.2×10^10 個樣本 DINOv2|2023|3.6×10^10 個樣本 Agile Soccer Robot|2023|3.1×10^9 個樣本 PaLM 2|2023|3.6×10^12 個樣本 StarCoder|2023|2.0×10^11 個樣本 CoEdiT-xxl|2023|1.1×10^6 個樣本 Med-PaLM 2|2023|1.6×10^7 個樣本 CodeT5+|2023|5.2×10^10 個樣本 ONE-PEACE|2023|4.9×10^11 個樣本 Goat-7B|2023|4.4×10^7 個樣本 MusicGen|2023|1.4×10^13 個樣本 HyenaDNA|2023|3.0×10^9 個樣本 InternLM|2023|1.6×10^12 個樣本 Pangu-Weather|2023|2.5×10^13 個樣本 xTrimoPGLM -100B|2023|2.8×10^11 個樣本 Llama 2-70B|2023|2.0×10^12 個樣本 Llama 2-7B|2023|2.0×10^12 個樣本 AudioLM|2023|1.3×10^11 個樣本 Qwen-VL|2023|5.0×10^11 個樣本 PeptideBERT|2023|4.2×10^6 個樣本 Jais|2023|4.0×10^11 個樣本 Swift|2023|1.2×10^8 個樣本 Falcon-180B|2023|3.5×10^12 個樣本 AlphaMissense|2023|2.3×10^9 個樣本 Amazon Titan|2023|4.0×10^12 個樣本 Show-1|2023|1.6×10^14 個樣本 FinGPT-13B|2023|7.7×10^4 個樣本 RoseTTAFold All-Atom (RFAA)|2023|6.3×10^7 個樣本 Ferret (13B)|2023|1.7×10^8 個樣本 CODEFUSION (Python)|2023|4.4×10^6 個樣本 ChatGLM3-6B|2023|1.4×10^12 個樣本 Skywork-13B|2023|3.2×10^12 個樣本 BLUUMI|2023|3.8×10^10 個樣本 Grok-1|2023|6.2×10^12 個樣本 Yi-34B|2023|3.1×10^12 個樣本 RoFormer|2023|3.3×10^9 個樣本 mPLUG-Owl2|2023|1.8×10^11 個樣本 Nemotron-3-8B|2023|3.8×10^12 個樣本 GNoME for crystal discovery|2023|6.9×10^4 個樣本 Qwen-72B|2023|3.0×10^12 個樣本 Mamba-24M (SC09)|2023|9.7×10^4 個樣本 Llama Guard|2023|4.1×10^6 個樣本 VILA-13B|2023|3.2×10^10 個樣本 nekomata-14b|2023|6.6×10^10 個樣本 Qwen1.5-72B|2024|3.0×10^12 個樣本 Aya|2024|1.1×10^12 個樣本 Aramco Metabrain AI|2024|7.0×10^12 個樣本 DBRX|2024|1.2×10^13 個樣本 ReALM|2024|1.3×10^11 個樣本 Llama 3-70B|2024|1.5×10^13 個樣本 VILA1.5-13B|2024|3.2×10^10 個樣本 AlphaFold 3|2024|3.0×10^10 個樣本 Yi-Large|2024|3.0×10^12 個樣本 GLM-4 (0520)|2024|1.0×10^13 個樣本 ALLaM adapted 70B|2024|6.0×10^11 個樣本 Qwen2-72B|2024|7.0×10^12 個樣本 Nemotron-4 340B|2024|9.0×10^12 個樣本 DeepSeek-Coder-V2 236B|2024|3.2×10^12 個樣本 ESM3 (98B)|2024|7.7×10^11 個樣本 Llama 3.1-405B|2024|1.6×10^13 個樣本 AFM-on-device|2024|7.6×10^12 個樣本 AFM-server|2024|7.4×10^12 個樣本 LLaVA-OV-72B|2024|3.8×10^10 個樣本 Table Tennis Agent|2024|2.4×10^9 個樣本 Qwen2.5-32B|2024|1.8×10^13 個樣本 Qwen2.5-72B|2024|1.8×10^13 個樣本 Telechat2-115B|2024|1.0×10^13 個樣本 PixelDance|2024|1.1×10^14 個樣本 Movie Gen Video|2024|3.4×10^9 個樣本 NVLM-D 72B|2024|5.7×10^10 個樣本 NVLM-H 72B|2024|1.3×10^11 個樣本 NVLM-X 72B|2024|4.6×10^10 個樣本 Doubao-pro|2024|8.4×10^12 個樣本 Hunyuan-Large|2024|7.0×10^12 個樣本 Llama 3.3 70B|2024|1.5×10^13 個樣本 EXAONE 3.5 32B|2024|6.5×10^12 個樣本 DeepSeek-V3|2024|1.5×10^13 個樣本 DeepSeek-R1|2025|1.5×10^13 個樣本 Doubao-1.5-pro|2025|9.0×10^12 個樣本 Eurus-2-7B-PRIME|2025|8.3×10^5 個樣本 Hunyuan-TurboS|2025|1.6×10^13 個樣本 EXAONE Deep 32B|2025|1.2×10^10 個樣本 DeepSeek-V3 (Mar 2025)|2025|1.5×10^13 個樣本 Llama 4 Behemoth (preview)|2025|3.0×10^13 個樣本 Llama 4 Maverick|2025|3.0×10^13 個樣本 Llama 4 Scout|2025|3.0×10^13 個樣本 Pangu Ultra|2025|1.3×10^13 個樣本 Qwen3-235B-A22B|2025|3.6×10^13 個樣本 Seed1.5-VL|2025|3.0×10^12 個樣本 DeepSeek-R1 (May 2025)|2025|1.5×10^13 個樣本 EXAONE Path 2.0|2025|1.4×10^5 個樣本 Kimi K2|2025|1.6×10^13 個樣本 EXAONE 4.0 (32B)|2025|1.4×10^13 個樣本 Qwen3-Coder-480B-A35B|2025|7.5×10^12 個樣本 Qwen3-235B-A22B (Jul 2025)|2025|3.6×10^13 個樣本 Qwen3-235B-A22B-Thinking (Jul 2025)|2025|3.6×10^13 個樣本 GLM-4.5|2025|2.3×10^13 個樣本 LongCat-Flash|2025|2.3×10^13 個樣本 Qwen3-Max|2025|3.6×10^13 個樣本 AgentFounder-30B|2025|3.2×10^11 個樣本 Qwen3-Omni-30B-A3B|2025|2.0×10^12 個樣本 GLM-4.6|2025|2.3×10^13 個樣本 Ling-1T|2025|2.0×10^13 個樣本 Olmo 3|2025|5.5×10^12 個樣本 K-EXAONE|2026|1.1×10^13 個樣本 |2026|2.0×10^13 個樣本 MiMo-V2.5-Pro|2026|2.7×10^13 個樣本 語言 視覺 多領域 其他 生物 遊戲 語音 圖像生成 機器人 每個點為一個知名 AI 模型,縱軸=訓練數據集規模(對數軸,樣本 / token 數),按應用領域著色;共 659 個模型。 訓練算力紀錄:歷年刷新前沿的模型 下表為在其發佈時刷新「已知最高訓練算力」紀錄的模型(按算力升序刷新),倒序展示最近 12 個紀錄。
數據來源:Epoch AI 「Notable AI models」數據集(CC BY 4.0 ),
經 Our World in Data 整理。原始數據頁:
訓練算力 ·
參數量 ·
訓練數據量 。
數據於 2026-07-01 抓取,慢數據(約年度更新)、定期刷新;各圖縱軸均為對數刻度。
本頁僅客觀呈現已公開數據,不預測、不構成任何投資建議 。