首页 › 数据 › AI 模型规模趋势 过去十几年,AI 之所以突飞猛进,底层是三件东西在指数级变大:训练用的算力、模型的参数量、喂进去的数据量。
这也是「规模定律 」和这轮 AI 资本开支狂飙的底层逻辑。
下图收录了 527 个知名 AI 模型——单看训练算力,从最早的神经网络到当下的前沿大模型,已增长约 25 个数量级(1025 倍) 。 以下只陈述已公开的客观数据,不预测、不构成任何投资建议。
训练算力趋势 训练一个模型消耗的总计算量(浮点运算次数,10^15 FLOP = 1 petaFLOP)。纵轴为对数刻度——每上一格代表大 10 倍。
最新的前沿模型训练算力已达约 5.0×10¹¹ petaFLOP 量级。
10⁻¹² 10⁻⁸ 10⁻⁴ 1 10⁴ 10⁸ 10¹² 1960 1980 2000 2020 发布年份 训练算力(petaFLOP,对数轴) Theseus|1950|4.0×10^-14 petaFLOP Perceptron Mark I|1957|6.9×10^-10 petaFLOP Pandemonium (morse)|1959|6.0×10^-7 petaFLOP Samuel Neural Checkers|1959|4.3×10^-7 petaFLOP Perceptron (1960)|1960|7.2×10^-7 petaFLOP ADALINE|1960|6.6×10^-12 petaFLOP Linear Decision Functions|1962|1.6×10^-9 petaFLOP Print Recognition Logic|1963|2.2×10^-8 petaFLOP Heuristic Reinforcement Learning|1965|1.1×10^-9 petaFLOP LTE speaker verification system|1966|1.1×10^-7 petaFLOP Cognitron|1975|5.2×10^-9 petaFLOP Neocognitron|1980|2.7×10^-7 petaFLOP ASE+ACE|1983|3.2×10^-7 petaFLOP Distributed representation NN|1986|3.9×10^-7 petaFLOP MLP with back-propagation|1986|6.7×10^-7 petaFLOP NetTalk (dictionary)|1987|2.8×10^-5 petaFLOP NetTalk (transcription)|1987|2.8×10^-5 petaFLOP Translation-invariant MLP|1987|1.8×10^-5 petaFLOP MLN-ASR|1988|3.0×10^-7 petaFLOP Invariant image recognition|1989|2.7×10^-5 petaFLOP Handwritten digit recognition network|1989|1.8×10^-4 petaFLOP Speaker-independent vowel classification|1989|7.5×10^-6 petaFLOP Zip CNN|1989|1.5×10^-3 petaFLOP NETtalk reimplementation|1990|3.6×10^-5 petaFLOP Bankruptcy-NN|1990|3.1×10^-6 petaFLOP SexNet compression|1990|7.9×10^-5 petaFLOP Weight Decay|1991|7.6×10^-5 petaFLOP TD-Gammon|1992|1.8×10^-2 petaFLOP Cancer drug mechanism prediction|1992|5.4×10^-8 petaFLOP Siamese-TDNN|1993|1.3×10^-2 petaFLOP ANN Eye Tracker|1993|1.7×10^-5 petaFLOP Ceramic-MLP|1994|4.5×10^-6 petaFLOP JPMAX|1994|8.1×10^-8 petaFLOP Mixture of linear models|1994|4.5×10^-4 petaFLOP NeuroChess|1994|8.6×10^-4 petaFLOP Predictive Coding NN|1994|1.9×10^-2 petaFLOP LISSOM|1995|2.0×10^-4 petaFLOP MUSIC perceptron|1996|8.8×10^-4 petaFLOP System 11|1996|2.6×10^-5 petaFLOP SOM-CNN|1997|3.1×10^-5 petaFLOP LSTM|1997|3.2×10^-2 petaFLOP LeNet-5|1998|2.8×10^-3 petaFLOP RECONTRA-categorized|1999|8.0×10^-3 petaFLOP RECONTRA-uncategorized|1999|3.9×10^-3 petaFLOP Neural LM|2000|6.3×10^0 petaFLOP PoE MNIST|2000|5.2×10^-2 petaFLOP Decision tree (classification)|2001|6.3×10^-2 petaFLOP NPLM (AP News)|2003|1.7×10^0 petaFLOP NPLM (Brown)|2003|1.3×10^-1 petaFLOP Invariant CNN|2004|9.7×10^-4 petaFLOP LMICA|2004|2.8×10^0 petaFLOP Hierarchical LM|2005|1.2×10^-1 petaFLOP RankNet|2005|3.5×10^-3 petaFLOP SVM-CNN|2006|7.4×10^-1 petaFLOP KN-LM|2007|7.7×10^2 petaFLOP SB-LM|2007|1.5×10^3 petaFLOP GNN|2008|1.6×10^-6 petaFLOP GPU DBNs|2009|1.0×10^0 petaFLOP Two Stage Feature Extraction (MNIST)|2009|2.1×10^-2 petaFLOP LCNP LabelMe|2009|3.3×10^0 petaFLOP LCNP MNIST|2009|4.2×10^0 petaFLOP LCNP NORB|2009|2.5×10^0 petaFLOP Feedforward NN|2010|3.5×10^-1 petaFLOP iCCCP|2010|1.1×10^0 petaFLOP Pooling CNN (Caltech 101)|2010|1.2×10^0 petaFLOP Pooling CNN (NORB)|2010|1.5×10^0 petaFLOP RNN LM|2010|5.4×10^1 petaFLOP Deep Autoencoders|2011|3.7×10^1 petaFLOP High Performance CNN (NORB)|2011|2.6×10^1 petaFLOP CNN Committee (MNIST)|2011|5.2×10^1 petaFLOP CNN Committee (NIST)|2011|2.6×10^1 petaFLOP CNN committee (traffic sign)|2011|9.9×10^-1 petaFLOP Dropout (CIFAR)|2012|4.3×10^0 petaFLOP Dropout (ImageNet)|2012|2.7×10^2 petaFLOP Dropout (MNIST)|2012|6.0×10^0 petaFLOP Unsupervised High-level Feature Learner|2012|6.0×10^2 petaFLOP LSTM LM|2012|1.7×10^1 petaFLOP AlexNet|2012|4.7×10^2 petaFLOP DNN EM segmentation|2012|4.8×10^2 petaFLOP DistBelief Speech|2012|3.1×10^2 petaFLOP DistBelief NNLM|2013|2.6×10^3 petaFLOP ReLU-Speech|2013|1.3×10^2 petaFLOP Hierarchical Scene Labeling (Stanford Background)|2013|2.4×10^2 petaFLOP RCTM|2013|9.3×10^0 petaFLOP RNTN|2013|1.4×10^1 petaFLOP Word2Vec (large)|2013|3.9×10^1 petaFLOP Visualizing CNNs|2013|5.3×10^2 petaFLOP TransE|2013|1.3×10^3 petaFLOP DQN|2013|2.9×10^0 petaFLOP Image generation|2013|4.7×10^-1 petaFLOP GANs|2014|5.2×10^2 petaFLOP SPPNet|2014|3.4×10^3 petaFLOP SmooCT|2014|6.9×10^1 petaFLOP ACF-WIDER|2014|7.6×10^-2 petaFLOP RNNsearch-50*|2014|1.6×10^3 petaFLOP VGG16|2014|1.2×10^4 petaFLOP VGG19|2014|1.1×10^4 petaFLOP Seq2Seq LSTM|2014|5.6×10^4 petaFLOP SPN-4+KN5|2014|4.4×10^1 petaFLOP GoogLeNet / InceptionV1|2014|1.5×10^3 petaFLOP TA-CNN|2014|1.1×10^1 petaFLOP SNM-skip|2014|3.0×10^5 petaFLOP Fractional Max-Pooling|2014|1.0×10^2 petaFLOP ADAM (CIFAR-10)|2014|6.3×10^-1 petaFLOP MSRA (C, PReLU)|2015|2.4×10^4 petaFLOP genCNN + dyn eval|2015|3.4×10^1 petaFLOP TC-DNN-BLSTM-DNN|2015|1.9×10^2 petaFLOP U-Net|2015|5.1×10^1 petaFLOP DCNN|2015|4.8×10^2 petaFLOP AlphaGo Fan|2015|3.8×10^5 petaFLOP SAF R-CNN|2015|1.2×10^4 petaFLOP Inception v3|2015|1.0×10^5 petaFLOP ResNet-101 (ImageNet)|2015|7.0×10^3 petaFLOP ResNet-152 (ImageNet)|2015|1.0×10^4 petaFLOP Variational (untied weights, MC) LSTM (Large)|2015|5.9×10^0 petaFLOP AlphaGo Lee|2016|1.9×10^6 petaFLOP Named Entity Recognition model|2016|9.7×10^1 petaFLOP R-FCN|2016|7.2×10^2 petaFLOP ResNet-200|2016|3.0×10^4 petaFLOP GNMT|2016|6.6×10^6 petaFLOP Pointer Sentinel-LSTM (medium)|2016|7.5×10^0 petaFLOP Xception|2016|4.4×10^5 petaFLOP SPIDER2|2016|1.8×10^1 petaFLOP BIDAF|2016|3.5×10^3 petaFLOP NAS with base 8 and shared embeddings|2016|1.1×10^1 petaFLOP NASv3 (CIFAR-10)|2016|2.2×10^6 petaFLOP VD-LSTM+REAL Large|2016|2.1×10^1 petaFLOP ResNeXt-101 (64×4d)|2016|1.2×10^4 petaFLOP PolyNet|2016|6.4×10^4 petaFLOP HR-ResNet101|2016|7.1×10^3 petaFLOP EnhanceNet|2016|1.3×10^2 petaFLOP DeepStack|2017|1.5×10^4 petaFLOP MoE-Multi|2017|9.4×10^4 petaFLOP Transformer (2017)|2017|7.4×10^3 petaFLOP DeepLoc|2017|5.8×10^2 petaFLOP JFT|2017|8.4×10^5 petaFLOP ConvS2S (ensemble of 8 models)|2017|5.6×10^4 petaFLOP AWD-LSTM - 3-layer LSTM (tied) + continuous cache pointer (WT2)|2017|3.0×10^2 petaFLOP RetinaNet-R101|2017|2.1×10^3 petaFLOP OpenAI TI7 DOTA 1v1|2017|6.1×10^5 petaFLOP EI-REHN-1000D|2017|1.1×10^1 petaFLOP Libratus|2017|5.5×10^5 petaFLOP GL-LWGC-AWD-MoS-LSTM + dynamic evaluation (WT2)|2017|4.6×10^2 petaFLOP PyramidNet|2017|2.3×10^0 petaFLOP ISS|2017|3.4×10^0 petaFLOP AWD-LSTM+WT+Cache+IOG (WT2)|2017|3.2×10^0 petaFLOP AlphaGo Zero|2017|6.5×10^5 petaFLOP AlphaGo Master|2017|3.4×10^5 petaFLOP Fraternal dropout + AWD-LSTM 3-layer (WT2)|2017|3.1×10^2 petaFLOP AWD-LSTM-MoS + dynamic evaluation (WT2, 2017)|2017|3.4×10^3 petaFLOP AlphaZero|2017|1.1×10^5 petaFLOP ELMo|2018|3.3×10^0 petaFLOP QRNN|2018|6.9×10^2 petaFLOP IMPALA|2018|1.7×10^5 petaFLOP 4 layer QRNN (h=2500)|2018|5.9×10^2 petaFLOP YOLOv3|2018|1.3×10^4 petaFLOP Dropout-LSTM+Noise(Bernoulli) (WT2)|2018|1.3×10^2 petaFLOP ResNeXt-101 32x48d|2018|8.7×10^6 petaFLOP aLSTM(depth-2)+RecurrentPolicy (WT2)|2018|7.3×10^1 petaFLOP GPT-1|2018|1.8×10^4 petaFLOP FTW (For The Win)|2018|3.5×10^4 petaFLOP Big-Little Net|2018|2.5×10^2 petaFLOP Big-Little Net (speech)|2018|4.3×10^2 petaFLOP Big Transformer for Back-Translation|2018|4.8×10^5 petaFLOP (ensemble): AWD-LSTM-DOC (fin) × 5 (WT2)|2018|6.7×10^2 petaFLOP Transformer + Simple Recurrent Unit|2018|1.1×10^4 petaFLOP LSTM+NeuralCache|2018|9.8×10^-1 petaFLOP Transformer (Adaptive Input Embeddings) WT103|2018|4.5×10^4 petaFLOP BERT-Large|2018|2.9×10^5 petaFLOP TrellisNet|2018|2.8×10^3 petaFLOP Mesh-TensorFlow Transformer 2.9B (translation)|2018|6.8×10^4 petaFLOP Mesh-TensorFlow Transformer 4.9B (language)|2018|1.6×10^5 petaFLOP Fine-tuned-AWD-LSTM-DOC (fin)|2018|5.2×10^1 petaFLOP Multi-cell LSTM|2018|2.0×10^0 petaFLOP StyleGAN|2018|3.9×10^1 petaFLOP Transformer-XL (257M)|2019|3.8×10^5 petaFLOP Hanabi 4 player|2019|4.3×10^3 petaFLOP GPT-2 (1.5B)|2019|1.9×10^6 petaFLOP KataGo|2019|2.3×10^4 petaFLOP SciBERT|2019|8.9×10^4 petaFLOP Cross-lingual alignment|2019|2.6×10^3 petaFLOP WeNet (Penn Treebank)|2019|7.3×10^2 petaFLOP BERT-Large-CAS (PTB+WT2+WT103)|2019|1.5×10^5 petaFLOP MuseNet|2019|2.2×10^5 petaFLOP AWD-LSTM-DRILL + dynamic evaluation† (WT2)|2019|4.1×10^2 petaFLOP DLRM-2020|2019|4.0×10^3 petaFLOP XLNet|2019|6.2×10^6 petaFLOP Transformer-XL Large + Phrase Induction|2019|3.8×10^5 petaFLOP AWD-LSTM + MoS + Partial Shuffled|2019|3.2×10^2 petaFLOP RoBERTa Large|2019|8.5×10^6 petaFLOP Pluribus|2019|6.6×10^1 petaFLOP trRosetta|2019|3.8×10^4 petaFLOP UDSMProt|2019|6.4×10^2 petaFLOP Megatron-BERT|2019|2.2×10^7 petaFLOP Megatron-LM (1.2B)|2019|1.1×10^6 petaFLOP Megatron-LM (8.3B)|2019|9.1×10^6 petaFLOP AlphaX-1|2019|8.9×10^2 petaFLOP DistilBERT|2019|1.2×10^4 petaFLOP T5-11B|2019|3.3×10^7 petaFLOP T5-3B|2019|9.0×10^6 petaFLOP AlphaStar|2019|1.1×10^8 petaFLOP Base LM + kNN LM + Continuous Cache|2019|3.1×10^4 petaFLOP XLM-RoBERTa|2019|2.1×10^7 petaFLOP CamemBERT|2019|8.3×10^5 petaFLOP Noisy Student (L2)|2019|2.6×10^7 petaFLOP Sandwich Transformer|2019|2.4×10^4 petaFLOP MuZero|2019|4.8×10^4 petaFLOP Transformer-XL DeFINE (141M)|2019|1.7×10^3 petaFLOP MMLSTM (PTB)|2019|5.8×10^1 petaFLOP MMLSTM (WT-2)|2019|1.9×10^2 petaFLOP OpenAI Five|2019|6.7×10^7 petaFLOP OpenAI Five Rerun|2019|1.3×10^7 petaFLOP DD-PPO|2019|7.8×10^5 petaFLOP AlphaFold|2020|1.0×10^5 petaFLOP ContextNet + Noisy Student|2020|8.2×10^6 petaFLOP Meena|2020|1.1×10^8 petaFLOP TaLK Convolution|2020|2.7×10^4 petaFLOP ALBERT-xxlarge|2020|2.4×10^6 petaFLOP FFN SwiGLU|2020|3.4×10^4 petaFLOP Turing-NLG|2020|1.6×10^7 petaFLOP Feedback Transformer|2020|7.7×10^3 petaFLOP TransformerXL + spectrum control|2020|2.6×10^4 petaFLOP Tensor-Transformer(1core)+PN (WT103)|2020|1.6×10^3 petaFLOP ELECTRA|2020|3.1×10^6 petaFLOP MetNet|2020|9.5×10^3 petaFLOP Once for All|2020|6.2×10^5 petaFLOP UnifiedQA|2020|1.7×10^4 petaFLOP DETR|2020|4.0×10^5 petaFLOP GPT-3 175B (davinci)|2020|3.1×10^8 petaFLOP GShard (dense)|2020|4.8×10^7 petaFLOP DeLighT|2020|3.8×10^3 petaFLOP ERNIE-GEN (large)|2020|2.0×10^5 petaFLOP ProBERTa|2020|9.7×10^3 petaFLOP LUKE|2020|1.8×10^7 petaFLOP Conformer + Wav2vec 2.0 + Noisy Student|2020|7.6×10^6 petaFLOP German ELECTRA Large|2020|1.4×10^6 petaFLOP mT5-XXL|2020|8.2×10^7 petaFLOP ViT-Huge/14|2020|4.3×10^6 petaFLOP wave2vec 2.0 LARGE|2020|3.9×10^6 petaFLOP KEPLER|2020|1.7×10^6 petaFLOP AlphaFold 2|2020|3.0×10^6 petaFLOP CPM-Large|2020|2.6×10^5 petaFLOP ESM1b|2020|5.1×10^6 petaFLOP CT-MoS (WT2)|2020|5.4×10^2 petaFLOP DensePhrases|2020|2.1×10^3 petaFLOP ERNIE-Doc (247M)|2021|3.0×10^4 petaFLOP CLIP (ViT L/14@336px)|2021|1.1×10^7 petaFLOP DALL-E|2021|4.7×10^7 petaFLOP Switch|2021|8.2×10^7 petaFLOP DeiT-B|2021|7.9×10^4 petaFLOP DLWP|2021|5.7×10^3 petaFLOP MSA Transformer|2021|5.5×10^6 petaFLOP SRU++ Large|2021|2.1×10^4 petaFLOP Meta Pseudo Labels|2021|4.8×10^7 petaFLOP Generative BST|2021|1.4×10^7 petaFLOP M6-T|2021|5.5×10^6 petaFLOP PLUG|2021|3.6×10^7 petaFLOP ProtBERT-BFD|2021|3.9×10^7 petaFLOP ProtT5-XL-U50|2021|1.9×10^7 petaFLOP ADM|2021|6.2×10^6 petaFLOP MedBERT|2021|9.5×10^3 petaFLOP ByT5-XXL|2021|8.1×10^7 petaFLOP CogView|2021|2.7×10^7 petaFLOP Transformer local-attention (NesT-B)|2021|2.4×10^4 petaFLOP ViT-G/14|2021|5.8×10^7 petaFLOP ALIGN|2021|2.6×10^7 petaFLOP CoAtNet|2021|4.3×10^7 petaFLOP DeBERTa|2021|2.6×10^7 petaFLOP Denoising Diffusion Probabilistic Models (LSUN Bedroom)|2021|7.8×10^4 petaFLOP EMDR|2021|1.9×10^6 petaFLOP EfficientNetV2-XL|2021|9.6×10^4 petaFLOP StyleGAN3-R|2021|2.4×10^6 petaFLOP StyleGAN3-T|2021|1.7×10^6 petaFLOP Fold2Seq|2021|1.4×10^2 petaFLOP Adaptive Input Transformer + RD|2021|8.6×10^4 petaFLOP Codex|2021|7.3×10^7 petaFLOP ERNIE 3.0|2021|2.3×10^7 petaFLOP GOAT|2021|2.4×10^7 petaFLOP HuBERT|2021|5.5×10^6 petaFLOP SEER|2021|1.8×10^7 petaFLOP YOLOX-X|2021|6.3×10^5 petaFLOP Jurassic-1-Jumbo|2021|3.7×10^8 petaFLOP Zidong Taichu|2021|8.0×10^5 petaFLOP DNABERT|2021|1.1×10^5 petaFLOP XLMR-XXL|2021|3.4×10^7 petaFLOP FLAN 137B|2021|2.1×10^9 petaFLOP PermuteFormer|2021|2.8×10^3 petaFLOP HyperCLOVA 204B|2021|2.0×10^8 petaFLOP PLATO-XL|2021|9.9×10^6 petaFLOP Turing ULRv5|2021|2.9×10^7 petaFLOP AlphaFold-Multimer|2021|4.4×10^6 petaFLOP Megatron-Turing NLG 530B|2021|8.6×10^8 petaFLOP Yuan 1.0|2021|3.5×10^8 petaFLOP base LM+GNN+kNN|2021|5.3×10^4 petaFLOP CodeT5-base|2021|1.6×10^6 petaFLOP Projected GAN|2021|1.1×10^4 petaFLOP S4|2021|7.8×10^4 petaFLOP Masked Autoencoders ViT-H|2021|4.6×10^5 petaFLOP BASIC-L|2021|4.1×10^7 petaFLOP Swin Transformer V2 (SwinV2-G)|2021|1.1×10^6 petaFLOP Florence|2021|4.8×10^7 petaFLOP NÜWA|2021|7.3×10^6 petaFLOP Gopher (280B)|2021|6.3×10^8 petaFLOP Student of Games|2021|3.7×10^7 petaFLOP GLaM|2021|3.6×10^8 petaFLOP Contriever|2021|1.6×10^5 petaFLOP XGLM-7.5B|2021|2.3×10^7 petaFLOP ERNIE 3.0 Titan|2021|1.0×10^9 petaFLOP Detic|2022|2.3×10^4 petaFLOP InstructGPT 175B|2022|3.2×10^8 petaFLOP AlphaCode|2022|2.4×10^8 petaFLOP RETRO-7B|2022|1.7×10^7 petaFLOP GPT-NeoX-20B|2022|9.3×10^7 petaFLOP LaMDA|2022|3.6×10^8 petaFLOP ProteinBERT|2022|6.5×10^4 petaFLOP ST-MoE|2022|2.9×10^8 petaFLOP FourCastNet|2022|3.5×10^5 petaFLOP PolyCoder|2022|1.1×10^6 petaFLOP Statement Curriculum Learning|2022|1.8×10^7 petaFLOP ViT-G (model soup)|2022|3.4×10^6 petaFLOP |2022|2.6×10^9 petaFLOP Make-A-Scene|2022|6.4×10^6 petaFLOP Segatron-XL large, M=384 + HCP|2022|2.7×10^4 petaFLOP Chinchilla|2022|5.8×10^8 petaFLOP PaLM (540B)|2022|2.5×10^9 petaFLOP BERT-RBP|2022|1.4×10^5 petaFLOP DALL·E 2|2022|3.4×10^8 petaFLOP Sparse all-MLP|2022|5.3×10^5 petaFLOP Stable Diffusion (LDM-KL-8-G)|2022|5.0×10^7 petaFLOP Flamingo|2022|2.2×10^8 petaFLOP OPT-175B|2022|4.3×10^8 petaFLOP UL2|2022|1.2×10^8 petaFLOP Gato|2022|4.0×10^6 petaFLOP Imagen|2022|1.5×10^7 petaFLOP GPT-2 Medium (FlashAttention)|2022|8.9×10^5 petaFLOP Tranception|2022|7.2×10^6 petaFLOP DITTO|2022|3.3×10^3 petaFLOP CoCa|2022|7.3×10^7 petaFLOP Parti|2022|5.1×10^8 petaFLOP ProGen2-xlarge|2022|1.3×10^7 petaFLOP Minerva (540B)|2022|2.7×10^9 petaFLOP CodeT5-large|2022|2.7×10^6 petaFLOP NLLB|2022|1.8×10^7 petaFLOP BLOOM-176B|2022|3.7×10^8 petaFLOP ESM2-15B|2022|7.4×10^7 petaFLOP OmegaPLM|2022|1.0×10^7 petaFLOP AlexaTM 20B|2022|2.0×10^8 petaFLOP GLM-130B|2022|3.6×10^8 petaFLOP BlenderBot 3|2022|4.3×10^8 petaFLOP BEIT-3|2022|7.0×10^4 petaFLOP PaLI|2022|1.7×10^8 petaFLOP Whisper|2022|4.2×10^6 petaFLOP AlphaTensor|2022|7.1×10^5 petaFLOP DiffDock|2022|7.2×10^4 petaFLOP GenSLM|2022|1.4×10^6 petaFLOP Flan-PaLM 540B|2022|2.5×10^9 petaFLOP U-PaLM (540B)|2022|2.5×10^9 petaFLOP Mogrifier RLSTM (WT2)|2022|1.4×10^2 petaFLOP eDiff-I|2022|5.5×10^4 petaFLOP InternImage|2022|2.4×10^6 petaFLOP EVA-01|2022|1.5×10^7 petaFLOP Galactica|2022|3.2×10^8 petaFLOP AR-LDM|2022|5.1×10^5 petaFLOP Fusion in Encoder|2022|1.3×10^5 petaFLOP Discriminator Guidance|2022|2.2×10^5 petaFLOP Vega v2|2022|7.8×10^7 petaFLOP CaLM|2022|2.9×10^4 petaFLOP Hybrid H3-2.7B|2022|6.5×10^6 petaFLOP VALL-E|2023|1.0×10^4 petaFLOP DreamerV3|2023|2.2×10^5 petaFLOP Ankh_large|2023|6.5×10^6 petaFLOP Nucleotide Transformer|2023|8.1×10^6 petaFLOP DDPM-IP (CelebA)|2023|3.5×10^5 petaFLOP BLIP-2 (Q-Former)|2023|1.2×10^6 petaFLOP ViT-22B|2023|1.9×10^8 petaFLOP LLaMA-65B|2023|5.5×10^8 petaFLOP DiT-XL/2|2023|6.0×10^5 petaFLOP AudioGen|2023|9.5×10^6 petaFLOP Falcon-40B|2023|2.4×10^8 petaFLOP GPT-4 (Jun 2023)|2023|2.1×10^10 petaFLOP GPT-4 (Mar 2023)|2023|2.1×10^10 petaFLOP PanGu-Σ|2023|4.7×10^8 petaFLOP SigLIP 400M|2023|5.0×10^6 petaFLOP BloombergGPT|2023|2.4×10^8 petaFLOP VideoMAE V2|2023|9.7×10^6 petaFLOP Segment Anything Model|2023|7.8×10^6 petaFLOP Incoder-6.7B|2023|3.0×10^6 petaFLOP DINOv2|2023|7.4×10^6 petaFLOP LLaVA|2023|7.8×10^7 petaFLOP PaLM 2|2023|7.3×10^9 petaFLOP StarCoder|2023|8.5×10^7 petaFLOP InstructBLIP|2023|1.9×10^5 petaFLOP ONE-PEACE|2023|1.8×10^5 petaFLOP PaLI-X|2023|5.6×10^8 petaFLOP HyenaDNA|2023|1.8×10^6 petaFLOP InternLM|2023|1.0×10^9 petaFLOP Pangu-Weather|2023|4.0×10^7 petaFLOP xTrimoPGLM -100B|2023|6.2×10^8 petaFLOP Claude 2|2023|3.9×10^9 petaFLOP Llama 2-70B|2023|8.1×10^8 petaFLOP Llama 2-7B|2023|8.4×10^7 petaFLOP AudioLM|2023|3.9×10^3 petaFLOP GGNN|2023|7.6×10^6 petaFLOP PeptideBERT|2023|4.9×10^1 petaFLOP Jais|2023|4.9×10^7 petaFLOP Swift|2023|5.3×10^1 petaFLOP Falcon-180B|2023|3.8×10^9 petaFLOP Amazon Titan|2023|4.8×10^9 petaFLOP FinGPT-13B|2023|1.6×10^8 petaFLOP RoseTTAFold All-Atom (RFAA)|2023|2.1×10^5 petaFLOP CODEFUSION (Python)|2023|7.9×10^3 petaFLOP ChatGLM3-6B|2023|5.0×10^7 petaFLOP Skywork-13B|2023|2.5×10^8 petaFLOP Grok-1|2023|2.9×10^9 petaFLOP LLaVA 1.5|2023|7.8×10^7 petaFLOP Yi-34B|2023|6.1×10^8 petaFLOP CogVLM-17B|2023|6.3×10^7 petaFLOP MultiBand Diffusion|2023|2.6×10^4 petaFLOP RoFormer|2023|2.2×10^3 petaFLOP GraphCast|2023|2.1×10^7 petaFLOP Nemotron-3-8B|2023|1.8×10^8 petaFLOP SPHINX (Llama 2 13B)|2023|3.0×10^7 petaFLOP Volcano 13B|2023|4.6×10^7 petaFLOP Inflection-2|2023|1.0×10^10 petaFLOP Qwen-72B|2023|1.3×10^9 petaFLOP Gemini 1.0 Ultra|2023|5.0×10^10 petaFLOP Llama Guard|2023|1.6×10^8 petaFLOP Mixtral 8x7B|2023|7.7×10^8 petaFLOP CogAgent|2023|6.7×10^7 petaFLOP FunSearch|2023|3.9×10^8 petaFLOP VILA-13B|2023|2.3×10^6 petaFLOP nekomata-14b|2023|2.6×10^8 petaFLOP GQA-8-XXL|2023|3.5×10^7 petaFLOP Qwen1.5-72B|2024|1.3×10^9 petaFLOP MegaScale (Production)|2024|3.9×10^9 petaFLOP Stable Diffusion 3|2024|5.0×10^7 petaFLOP Mistral Large|2024|1.1×10^10 petaFLOP Aramco Metabrain AI|2024|1.1×10^10 petaFLOP Inflection-2.5|2024|8.0×10^9 petaFLOP MM1-30B|2024|4.9×10^8 petaFLOP DBRX|2024|2.6×10^9 petaFLOP Reka Core|2024|8.4×10^9 petaFLOP Llama 3-70B|2024|7.9×10^9 petaFLOP GenCast|2024|8.2×10^5 petaFLOP VILA1.5-13B|2024|2.3×10^6 petaFLOP AlphaFold 3|2024|4.1×10^7 petaFLOP Yi-Large|2024|1.8×10^9 petaFLOP Octo-Base|2024|5.9×10^5 petaFLOP ALLaM adapted 70B|2024|1.1×10^9 petaFLOP Qwen2-72B|2024|3.0×10^9 petaFLOP Llama-3.1-Nemotron-70B-Instruct|2024|7.9×10^9 petaFLOP Nemotron-4 340B|2024|1.8×10^10 petaFLOP OpenVLA|2024|1.1×10^8 petaFLOP DeepSeek-Coder-V2 236B|2024|1.3×10^9 petaFLOP Claude 3.5 Sonnet|2024|2.7×10^10 petaFLOP ESM3 (98B)|2024|1.1×10^9 petaFLOP Llama 3.1-405B|2024|3.8×10^10 petaFLOP Mistral Large 2|2024|2.1×10^10 petaFLOP AFM-on-device|2024|4.5×10^8 petaFLOP AFM-server|2024|4.3×10^9 petaFLOP LLaVA-OV-72B|2024|3.0×10^9 petaFLOP Grok-2|2024|3.0×10^10 petaFLOP DeepSeek-V2.5|2024|1.8×10^9 petaFLOP Qwen2.5-32B|2024|3.5×10^9 petaFLOP Qwen2.5 Instruct (72B)|2024|7.9×10^9 petaFLOP Qwen2.5-72B|2024|7.8×10^9 petaFLOP Telechat2-115B|2024|6.9×10^9 petaFLOP Llama 3.2 11B|2024|5.8×10^8 petaFLOP Movie Gen Video|2024|1.7×10^9 petaFLOP RDT-1B|2024|4.1×10^7 petaFLOP CHAI-1|2024|7.8×10^6 petaFLOP Yi-Lightning|2024|1.5×10^9 petaFLOP NVLM-D 72B|2024|3.0×10^9 petaFLOP NVLM-H 72B|2024|3.0×10^9 petaFLOP NVLM-X 72B|2024|3.0×10^9 petaFLOP Doubao-pro|2024|2.5×10^10 petaFLOP Hunyuan-Large|2024|3.5×10^9 petaFLOP Amazon Nova Pro|2024|6.0×10^9 petaFLOP Llama 3.3 70B|2024|6.9×10^9 petaFLOP EXAONE 3.5 32B|2024|1.3×10^9 petaFLOP DeepSeek-V3|2024|3.3×10^9 petaFLOP DeepSeek-R1|2025|3.5×10^9 petaFLOP Eagle 2|2025|4.7×10^7 petaFLOP Grok 3|2025|3.5×10^11 petaFLOP Claude 3.7 Sonnet|2025|3.4×10^10 petaFLOP GPT-4.5|2025|3.8×10^11 petaFLOP QwQ-32B|2025|3.5×10^9 petaFLOP Hunyuan-TurboS|2025|5.4×10^9 petaFLOP EXAONE Deep 32B|2025|1.3×10^9 petaFLOP DeepSeek-V3 (Mar 2025)|2025|3.3×10^9 petaFLOP Llama 4 Behemoth (preview)|2025|5.2×10^10 petaFLOP Llama 4 Maverick|2025|2.2×10^9 petaFLOP Llama 4 Scout|2025|4.1×10^9 petaFLOP Pangu Ultra|2025|1.1×10^10 petaFLOP Qwen3-235B-A22B|2025|4.8×10^9 petaFLOP Seed1.5-VL|2025|1.4×10^9 petaFLOP DeepSeek-R1 (May 2025)|2025|4.0×10^9 petaFLOP FGN|2025|9.6×10^6 petaFLOP Grok 4|2025|5.0×10^11 petaFLOP Kimi K2|2025|3.0×10^9 petaFLOP EXAONE 4.0 (32B)|2025|2.7×10^9 petaFLOP Qwen3-Coder-480B-A35B|2025|1.6×10^9 petaFLOP Qwen3-235B-A22B (Jul 2025)|2025|4.8×10^9 petaFLOP Qwen3-235B-A22B-Thinking (Jul 2025)|2025|4.8×10^9 petaFLOP GLM-4.5|2025|4.4×10^9 petaFLOP gpt-oss-120b|2025|4.9×10^9 petaFLOP gpt-oss-20b|2025|5.5×10^8 petaFLOP GPT-5|2025|6.6×10^10 petaFLOP LongCat-Flash|2025|3.7×10^9 petaFLOP Qwen3-Max|2025|1.5×10^10 petaFLOP AgentFounder-30B|2025|6.5×10^8 petaFLOP Qwen3-Omni-30B-A3B|2025|3.6×10^7 petaFLOP GLM-4.6|2025|4.4×10^9 petaFLOP Ling-1T|2025|6.0×10^9 petaFLOP Kimi K2 Thinking|2025|4.2×10^9 petaFLOP Olmo 3|2025|1.1×10^9 petaFLOP Nemotron 3-Nano-30B-A3B|2025|4.8×10^8 petaFLOP GLM-4.7|2025|4.4×10^9 petaFLOP K-EXAONE|2026|1.5×10^9 petaFLOP Kimi K2.5|2026|5.8×10^9 petaFLOP GLM-5|2026|6.8×10^9 petaFLOP Composer 2|2026|2.3×10^10 petaFLOP DeepSeek-V4-Flash|2026|2.5×10^9 petaFLOP DeepSeek-V4-Pro|2026|9.7×10^9 petaFLOP MiMo-V2.5-Pro|2026|6.8×10^9 petaFLOP Composer 2.5|2026|3.9×10^10 petaFLOP Nemotron 3 Ultra|2026|6.6×10^9 petaFLOP 语言 视觉 多领域 生物 游戏 其他 图像生成 语音 机器人 每个点为一个知名 AI 模型,横轴=发布年份、纵轴=训练算力(对数轴,单位 petaFLOP=10¹⁵ 次浮点运算),按应用领域着色;共 527 个模型。 参数量趋势 模型的可训练参数数量——参数越多,模型「容量」通常越大。按开发方类型(产业界 / 学术界 / 产学合作)着色,可见近年前沿被产业界主导。
10² 10⁴ 10⁶ 10⁸ 10¹⁰ 10¹² 1960 1980 2000 2020 发布年份 参数量(个,对数轴) Theseus|1950|4.0×10^1 个参数 SNARC|1952|4.0×10^1 个参数 Self Organizing System|1955|2.3×10^2 个参数 Perceptron Mark I|1957|1.0×10^3 个参数 Samuel Neural Checkers|1959|1.6×10^1 个参数 Pattern recognition and reading by machine|1959|2.6×10^3 个参数 Perceptron (1960)|1960|1.0×10^3 个参数 ADALINE|1960|1.7×10^1 个参数 LTE speaker verification system|1966|2.1×10^3 个参数 Decision tree adaline|1969|2.5×10^3 个参数 Piecewise linear model|1973|3.6×10^2 个参数 Cognitron|1975|2.2×10^4 个参数 Neocognitron|1980|1.1×10^6 个参数 Kohonen network|1981|4.1×10^3 个参数 Hopfield network|1982|9.9×10^3 个参数 ASE+ACE|1983|3.2×10^2 个参数 Hierarchical Cognitron|1984|9.3×10^3 个参数 Distributed representation NN|1986|4.3×10^2 个参数 MLP with back-propagation|1986|7.2×10^2 个参数 NetTalk (dictionary)|1987|1.9×10^4 个参数 NetTalk (transcription)|1987|1.9×10^4 个参数 Translation-invariant MLP|1987|8.2×10^2 个参数 MLN-ASR|1988|1.0×10^4 个参数 Truck backer-upper|1989|8.1×10^2 个参数 Handwritten digit recognition network|1989|2.6×10^3 个参数 Speaker-independent vowel classification|1989|3.0×10^3 个参数 Zip CNN|1989|9.8×10^3 个参数 NETtalk reimplementation|1990|2.8×10^4 个参数 Bankruptcy-NN|1990|3.6×10^1 个参数 SexNet classification|1990|1.6×10^3 个参数 SexNet compression|1990|7.3×10^4 个参数 RAAM|1990|1.5×10^3 个参数 Weight Decay|1991|8.4×10^3 个参数 TD-Gammon|1992|2.5×10^4 个参数 Cancer drug mechanism prediction|1992|5.9×10^2 个参数 Boosting|1992|2.6×10^3 个参数 IBM-5|1993|1.7×10^6 个参数 Siamese-TDNN|1993|7.4×10^2 个参数 ANN Eye Tracker|1993|5.6×10^3 个参数 Ceramic-MLP|1994|1.9×10^3 个参数 JPMAX|1994|4.5×10^3 个参数 Mixture of linear models|1994|3.8×10^5 个参数 NeuroChess|1994|7.2×10^4 个参数 Predictive Coding NN|1994|2.1×10^5 个参数 Support Vector Machines|1995|1.0×10^8 个参数 LISSOM|1995|4.3×10^5 个参数 MUSIC perceptron|1996|1.4×10^4 个参数 System 11|1996|6.5×10^3 个参数 SOM-CNN|1997|3.2×10^4 个参数 Deep Blue|1997|8.0×10^3 个参数 Bidirectional RNN|1997|1.3×10^4 个参数 LSTM|1997|1.1×10^4 个参数 LeNet-5|1998|6.0×10^4 个参数 LSTM with forget gates|1999|2.8×10^2 个参数 RECONTRA-categorized|1999|6.7×10^4 个参数 RECONTRA-uncategorized|1999|1.1×10^5 个参数 Neural LM|2000|6.9×10^6 个参数 PoE MNIST|2000|3.9×10^6 个参数 Decision tree (classification)|2001|1.2×10^4 个参数 NPLM (AP News)|2003|1.2×10^7 个参数 NPLM (Brown)|2003|4.1×10^6 个参数 Invariant CNN|2004|9.1×10^4 个参数 LMICA|2004|4.1×10^6 个参数 RankNet|2005|5.7×10^3 个参数 SVM-CNN|2006|9.1×10^4 个参数 Deep Belief Nets|2006|1.6×10^6 个参数 Dimensionality Reduction|2006|3.8×10^6 个参数 KN-LM|2007|2.1×10^10 个参数 SB-LM|2007|3.0×10^11 个参数 BLSTM for handwriting (2)|2007|1.0×10^5 个参数 Deep Multitask NLP Network|2008|1.5×10^6 个参数 HLBL|2008|1.9×10^6 个参数 GNN|2008|3.0×10^1 个参数 BP-DBN|2009|1.8×10^7 个参数 RBM Image Classifier|2009|8.0×10^7 个参数 GPU DBNs|2009|1.0×10^8 个参数 Two Stage Feature Extraction (MNIST)|2009|2.6×10^5 个参数 LCNP LabelMe|2009|1.4×10^7 个参数 LCNP MNIST|2009|1.2×10^7 个参数 LCNP NORB|2009|1.7×10^7 个参数 Super-vector coding|2010|1.0×10^3 个参数 Feedforward NN|2010|7.1×10^6 个参数 ReLU (NORB)|2010|1.6×10^7 个参数 Pooling CNN (Caltech 101)|2010|3.0×10^5 个参数 Pooling CNN (NORB)|2010|2.7×10^5 个参数 RNN LM|2010|7.0×10^7 个参数 Deep Autoencoders|2011|1.4×10^8 个参数 Vector Space Model|2011|2.6×10^5 个参数 High Performance CNN (NORB)|2011|4.9×10^6 个参数 CNN Committee (MNIST)|2011|1.2×10^5 个参数 CNN Committee (NIST)|2011|1.3×10^5 个参数 CNN committee (traffic sign)|2011|1.4×10^6 个参数 NLP from scratch|2011|5.0×10^6 个参数 Dropout (MNIST)|2012|5.6×10^6 个参数 Dropout (TIMIT)|2012|4.9×10^7 个参数 Unsupervised High-level Feature Learner|2012|1.0×10^9 个参数 LSTM LM|2012|1.0×10^8 个参数 AlexNet|2012|6.0×10^7 个参数 DNN EM segmentation|2012|2.2×10^5 个参数 DistBelief Speech|2012|4.7×10^7 个参数 DistBelief Vision|2012|1.7×10^9 个参数 RNN+LDA+KN5+cache|2012|9.0×10^6 个参数 PreTrans-3L-250H|2013|4.3×10^7 个参数 Multilingual DNN|2013|2.1×10^8 个参数 ReLU-Speech|2013|1.0×10^8 个参数 Hierarchical Scene Labeling (Stanford Background)|2013|5.2×10^7 个参数 Word2Vec (large)|2013|6.9×10^8 个参数 Word2Vec (small)|2013|2.1×10^8 个参数 R-CNN (T-net)|2013|6.9×10^7 个参数 TransE|2013|9.4×10^8 个参数 RNN for 1B words|2013|2.0×10^10 个参数 DQN|2013|8.4×10^5 个参数 Image generation|2013|7.8×10^5 个参数 OverFeat|2013|1.4×10^8 个参数 GloVe (32B)|2014|1.2×10^8 个参数 GloVe (6B)|2014|1.2×10^8 个参数 HyperNEAT|2014|2.4×10^5 个参数 Paragraph Vector|2014|3.2×10^7 个参数 AdaRNN|2014|1.3×10^4 个参数 Dropout: SVHN|2014|4.8×10^7 个参数 Fragment embedding|2014|1.4×10^8 个参数 Multiresolution CNN|2014|1.3×10^8 个参数 RNN-WER|2014|2.6×10^7 个参数 ACF-WIDER|2014|6.1×10^3 个参数 NPD|2014|3.1×10^5 个参数 VGG16|2014|1.4×10^8 个参数 VGG19|2014|1.4×10^8 个参数 Seq2Seq LSTM|2014|1.9×10^9 个参数 SPN-4+KN5|2014|5.0×10^6 个参数 GoogLeNet / InceptionV1|2014|6.8×10^6 个参数 LRCN|2014|1.4×10^8 个参数 TA-CNN|2014|7.1×10^5 个参数 SNM-skip|2014|6.2×10^10 个参数 Fractional Max-Pooling|2014|2.7×10^7 个参数 ADAM (CIFAR-10)|2014|2.4×10^6 个参数 VGG-Face|2015|1.4×10^8 个参数 MSRA (C, PReLU)|2015|8.7×10^7 个参数 TRPO|2015|3.4×10^4 个参数 DQN-2015|2015|1.7×10^6 个参数 genCNN + dyn eval|2015|8.0×10^6 个参数 TC-DNN-BLSTM-DNN|2015|1.8×10^7 个参数 U-Net|2015|3.8×10^7 个参数 CFSS|2015|1.7×10^4 个参数 YOLO|2015|2.7×10^8 个参数 BatchNorm|2015|1.4×10^7 个参数 Deep CNN + COTS|2015|5.0×10^6 个参数 DCNN|2015|5.0×10^6 个参数 AlphaGo Fan|2015|8.2×10^6 个参数 SAF R-CNN|2015|1.4×10^8 个参数 3DDFA|2015|5.4×10^6 个参数 Inception v3|2015|2.4×10^7 个参数 ResNet-101 (ImageNet)|2015|4.5×10^7 个参数 ResNet-110 (CIFAR-10)|2015|1.7×10^6 个参数 ResNet-152 (ImageNet)|2015|6.0×10^7 个参数 Variational (untied weights, MC) LSTM (Large)|2015|6.6×10^7 个参数 Inception-ResNet-V2|2016|5.6×10^7 个参数 Inceptionv4|2016|4.3×10^7 个参数 SqueezeNet|2016|1.2×10^6 个参数 Double DQN|2016|1.5×10^6 个参数 |2016|1.4×10^8 个参数 Dueling DQN|2016|1.7×10^6 个参数 Gated HORNN (3rd order)|2016|9.0×10^6 个参数 LRR-4X|2016|1.4×10^8 个参数 CMS-RCNN|2016|1.4×10^8 个参数 SimpleNet|2016|5.5×10^6 个参数 DenseNet-264|2016|3.4×10^7 个参数 LF-MMI|2016|1.7×10^7 个参数 MS-ensemble-speech-recognition|2016|3.2×10^9 个参数 ResNet-1001|2016|1.0×10^7 个参数 GNMT|2016|2.8×10^8 个参数 Pointer Sentinel-LSTM (medium)|2016|2.1×10^7 个参数 Xception|2016|2.3×10^7 个参数 SPIDER2|2016|4.1×10^5 个参数 BIDAF|2016|2.6×10^6 个参数 NAS with base 8 and shared embeddings|2016|5.4×10^7 个参数 NASv3 (CIFAR-10)|2016|3.7×10^7 个参数 VD-LSTM+REAL Large|2016|5.1×10^7 个参数 DLDL (PASCAL)|2016|5.6×10^8 个参数 ResNeXt-101 (64×4d)|2016|8.3×10^7 个参数 ResNeXt-50|2016|2.5×10^7 个参数 PolyNet|2016|9.2×10^7 个参数 3DMM-CNN|2016|4.5×10^7 个参数 HR-ResNet101|2016|4.5×10^7 个参数 EnhanceNet|2016|8.1×10^5 个参数 YOLOv2|2016|5.1×10^7 个参数 DeepStack|2017|2.5×10^6 个参数 OR-WideResNet|2017|1.8×10^7 个参数 MoE-Multi|2017|8.7×10^9 个参数 MobileNet|2017|4.2×10^6 个参数 Transformer (2017)|2017|2.1×10^8 个参数 ShuffleNet v1|2017|2.4×10^6 个参数 JFT|2017|4.5×10^7 个参数 AWD-LSTM|2017|2.4×10^7 个参数 NASNet-A|2017|8.9×10^7 个参数 AWD-LSTM - 3-layer LSTM (tied) + continuous cache pointer (WT2)|2017|3.3×10^7 个参数 RetinaNet-R101|2017|5.3×10^7 个参数 RetinaNet-R50|2017|3.4×10^7 个参数 EI-REHN-1000D|2017|1.9×10^7 个参数 GL-LWGC-AWD-MoS-LSTM + dynamic evaluation (WT2)|2017|3.8×10^7 个参数 PyramidNet|2017|2.6×10^7 个参数 SENet (ImageNet)|2017|2.8×10^7 个参数 ISS|2017|1.1×10^7 个参数 LSTM + dynamic eval|2017|5.0×10^7 个参数 AWD-LSTM+WT+Cache+IOG (WT2)|2017|5.3×10^7 个参数 AlphaGo Zero|2017|4.6×10^7 个参数 Fraternal dropout + AWD-LSTM 3-layer (WT2)|2017|3.4×10^7 个参数 AWD-LSTM-MoS + dynamic evaluation (WT2, 2017)|2017|3.5×10^7 个参数 DL scaling Image|2017|1.2×10^8 个参数 DL scaling LM|2017|1.8×10^8 个参数 DL scaling speech|2017|1.9×10^8 个参数 ELMo|2018|9.4×10^7 个参数 QRNN|2018|1.4×10^8 个参数 IMPALA|2018|1.6×10^6 个参数 TCN (P-MNIST)|2018|4.2×10^4 个参数 4 layer QRNN (h=2500)|2018|1.5×10^8 个参数 YOLOv3|2018|5.7×10^7 个参数 Dropout-LSTM+Noise(Bernoulli) (WT2)|2018|5.1×10^7 个参数 ResNeXt-101 32x48d|2018|8.3×10^8 个参数 aLSTM(depth-2)+RecurrentPolicy (WT2)|2018|3.2×10^7 个参数 GPT-1|2018|1.2×10^8 个参数 MobileNetV2|2018|3.4×10^6 个参数 FTW (For The Win)|2018|1.3×10^8 个参数 Big-Little Net|2018|7.7×10^7 个参数 Big-Little Net (speech)|2018|3.3×10^6 个参数 AWD-LSTM-MoS+PDR + dynamic evaluation (WT2)|2018|3.5×10^7 个参数 (ensemble): AWD-LSTM-DOC (fin) × 5 (WT2)|2018|1.9×10^8 个参数 AWD-LSTM-MoS + dynamic evaluation (WT2, 2018)|2018|3.5×10^7 个参数 Transformer + Simple Recurrent Unit|2018|9.0×10^7 个参数 LSTM+NeuralCache|2018|2.1×10^6 个参数 Transformer (Adaptive Input Embeddings) WT103|2018|2.5×10^8 个参数 BERT-Large|2018|3.4×10^8 个参数 MetaMimic|2018|2.2×10^7 个参数 TrellisNet|2018|1.8×10^8 个参数 Mesh-TensorFlow Transformer 2.9B (translation)|2018|2.9×10^9 个参数 Mesh-TensorFlow Transformer 4.9B (language)|2018|4.9×10^9 个参数 Fine-tuned-AWD-LSTM-DOC (fin)|2018|4.6×10^7 个参数 GPipe (Transformer)|2018|6.0×10^9 个参数 Multi-cell LSTM|2018|7.2×10^6 个参数 SPN (ImageNet 128)|2018|2.5×10^8 个参数 StyleGAN|2018|2.6×10^7 个参数 Transformer ELMo|2019|5.6×10^7 个参数 Transformer-XL (257M)|2019|2.6×10^8 个参数 Hanabi 4 player|2019|7.6×10^5 个参数 MT-DNN|2019|3.3×10^8 个参数 GPT-2 (1.5B)|2019|1.5×10^9 个参数 KataGo|2019|2.5×10^6 个参数 NMT Transformer 437M|2019|4.4×10^8 个参数 SciBERT|2019|1.1×10^8 个参数 True-Regularization+Finetune+Dynamic-Eval|2019|7.0×10^6 个参数 WeNet (Penn Treebank)|2019|2.3×10^7 个参数 Transformer-XL + RMS dynamic eval|2019|2.6×10^8 个参数 BERT-Large-CAS (PTB+WT2+WT103)|2019|4.0×10^8 个参数 MuseNet|2019|2.0×10^9 个参数 ResNeXt-101 Billion-scale|2019|1.9×10^8 个参数 AWD-LSTM-DRILL + dynamic evaluation† (WT2)|2019|3.4×10^7 个参数 CPC v2|2019|3.0×10^8 个参数 EfficientNet-L2|2019|4.8×10^8 个参数 DLRM-2020|2019|1.0×10^11 个参数 XLM|2019|6.7×10^8 个参数 XLNet|2019|3.4×10^8 个参数 Transformer-XL Large + Phrase Induction|2019|2.6×10^8 个参数 AWD-LSTM + MoS + Partial Shuffled|2019|3.5×10^7 个参数 FixRes ResNeXt-101 WSL|2019|8.3×10^8 个参数 LaNet-L (CIFAR-10)|2019|4.4×10^7 个参数 BigBiGAN|2019|8.6×10^7 个参数 RoBERTa Large|2019|3.6×10^8 个参数 EN^2AS with performance reward|2019|2.3×10^7 个参数 Mogrifier (d2, MoS2, MC) + dynamic eval|2019|3.5×10^7 个参数 UDSMProt|2019|2.8×10^7 个参数 Megatron-BERT|2019|3.9×10^9 个参数 Megatron-LM (1.2B)|2019|1.2×10^9 个参数 Megatron-LM (8.3B)|2019|8.3×10^9 个参数 ALBERT|2019|1.8×10^7 个参数 Adaptive Inputs + LayerDrop|2019|4.2×10^8 个参数 AlphaX-1|2019|5.4×10^6 个参数 DistilBERT|2019|6.6×10^7 个参数 M4-50B|2019|5.0×10^10 个参数 T5-11B|2019|1.1×10^10 个参数 T5-3B|2019|2.8×10^9 个参数 BART-large|2019|4.1×10^8 个参数 AlphaStar|2019|1.4×10^8 个参数 Base LM + kNN LM + Continuous Cache|2019|2.5×10^8 个参数 XLM-RoBERTa|2019|5.5×10^8 个参数 CamemBERT|2019|3.4×10^8 个参数 Noisy Student (L2)|2019|4.8×10^8 个参数 Sandwich Transformer|2019|2.1×10^8 个参数 MoCo|2019|3.8×10^8 个参数 MuZero|2019|3.7×10^7 个参数 Transformer - LibriVox + Decoding/Rescoring|2019|3.0×10^8 个参数 Transformer-XL DeFINE (141M)|2019|1.4×10^8 个参数 StyleGAN2|2019|3.0×10^7 个参数 MMLSTM (PTB)|2019|2.1×10^7 个参数 MMLSTM (WT-2)|2019|3.2×10^7 个参数 OpenAI Five|2019|1.6×10^8 个参数 OpenAI Five Rerun|2019|1.6×10^8 个参数 Big Transfer (BiT-L)|2019|9.3×10^8 个参数 AlphaFold|2020|1.6×10^7 个参数 Meena|2020|2.6×10^9 个参数 Perceiver IO (optical flow)|2020|2.8×10^7 个参数 TaLK Convolution|2020|2.4×10^8 个参数 Theseus 6/768|2020|6.6×10^7 个参数 ALBERT-xxlarge|2020|2.4×10^8 个参数 FFN SwiGLU|2020|2.2×10^8 个参数 SimCLR|2020|3.8×10^8 个参数 Turing-NLG|2020|1.7×10^10 个参数 Feedback Transformer|2020|1.3×10^8 个参数 TCAN (WT2)|2020|3.3×10^7 个参数 Routing Transformer (WT-103)|2020|8.0×10^7 个参数 TransformerXL + spectrum control|2020|1.5×10^8 个参数 Tensor-Transformer(1core)+PN (WT103)|2020|8.5×10^7 个参数 ELECTRA|2020|3.4×10^8 个参数 MetNet|2020|2.3×10^8 个参数 CURL|2020|9.1×10^5 个参数 Once for All|2020|7.7×10^6 个参数 UnifiedQA|2020|1.1×10^10 个参数 NAS+ESS (23M)|2020|2.3×10^7 个参数 ContextNet|2020|1.1×10^8 个参数 Conformer|2020|1.2×10^8 个参数 Retrieval-Augmented Generator|2020|6.3×10^8 个参数 DETR|2020|6.0×10^7 个参数 GPT-3 175B (davinci)|2020|1.8×10^11 个参数 GShard (dense)|2020|2.3×10^9 个参数 EfficientDet|2020|7.7×10^7 个参数 DeLighT|2020|9.9×10^7 个参数 ERNIE-GEN (large)|2020|3.4×10^8 个参数 ProBERTa|2020|4.4×10^7 个参数 LUKE|2020|4.8×10^8 个参数 Conformer + Wav2vec 2.0 + Noisy Student|2020|1.0×10^9 个参数 German ELECTRA Large|2020|3.4×10^8 个参数 mT5-XXL|2020|1.3×10^10 个参数 ViT-Base/32|2020|8.6×10^7 个参数 ViT-Huge/14|2020|6.3×10^8 个参数 wave2vec 2.0 LARGE|2020|3.2×10^8 个参数 KEPLER|2020|1.3×10^8 个参数 AlphaFold 2|2020|9.3×10^7 个参数 CPM-Large|2020|2.6×10^9 个参数 ESM1b|2020|6.5×10^8 个参数 CT-MoS (WT2)|2020|4.5×10^7 个参数 ERNIE-Doc (247M)|2021|2.5×10^8 个参数 CLIP (ResNet-50)|2021|8.9×10^7 个参数 CLIP (ViT L/14@336px)|2021|3.7×10^8 个参数 DALL-E|2021|1.2×10^10 个参数 BigSSL|2021|8.0×10^9 个参数 Switch|2021|1.6×10^12 个参数 DeiT-B|2021|8.6×10^7 个参数 DLWP|2021|2.7×10^6 个参数 MSA Transformer|2021|1.0×10^8 个参数 Rational DQN Average|2021|1.7×10^6 个参数 SRU++ Large|2021|2.3×10^8 个参数 Meta Pseudo Labels|2021|4.8×10^8 个参数 Generative BST|2021|9.4×10^9 个参数 M6-T|2021|1.0×10^12 个参数 Unicorn|2021|1.1×10^10 个参数 PLUG|2021|2.7×10^10 个参数 ProtBERT-BFD|2021|4.2×10^8 个参数 ProtT5-XL-U50|2021|3.0×10^9 个参数 ADM|2021|5.6×10^8 个参数 MedBERT|2021|1.7×10^7 个参数 ByT5-XXL|2021|1.3×10^10 个参数 CogView|2021|4.0×10^9 个参数 Transformer local-attention (NesT-B)|2021|9.0×10^7 个参数 ViT-G/14|2021|1.8×10^9 个参数 ALIGN|2021|8.2×10^8 个参数 CoAtNet|2021|2.4×10^9 个参数 DeBERTa|2021|1.5×10^9 个参数 Denoising Diffusion Probabilistic Models (LSUN Bedroom)|2021|2.6×10^8 个参数 EMDR|2021|4.4×10^8 个参数 EfficientNetV2-XL|2021|2.1×10^8 个参数 StyleGAN3-R|2021|1.6×10^6 个参数 StyleGAN3-T|2021|2.2×10^6 个参数 Fold2Seq|2021|1.2×10^7 个参数 Adaptive Input Transformer + RD|2021|2.5×10^8 个参数 Codex|2021|1.2×10^10 个参数 ERNIE 3.0|2021|1.0×10^10 个参数 GOAT|2021|3.5×10^6 个参数 HuBERT|2021|1.0×10^9 个参数 SEER|2021|1.3×10^9 个参数 6-Act Tether|2021|5.0×10^6 个参数 YOLOX-X|2021|9.9×10^7 个参数 W2v-BERT|2021|1.0×10^9 个参数 Jurassic-1-Jumbo|2021|1.8×10^11 个参数 Zidong Taichu|2021|3.2×10^9 个参数 DNABERT|2021|1.1×10^8 个参数 XLMR-XXL|2021|1.1×10^10 个参数 FLAN 137B|2021|1.4×10^11 个参数 MEB|2021|1.3×10^11 个参数 PermuteFormer|2021|1.5×10^8 个参数 HyperCLOVA 204B|2021|2.0×10^11 个参数 PLATO-XL|2021|1.1×10^10 个参数 TrOCR|2021|5.6×10^8 个参数 Turing ULRv5|2021|2.2×10^9 个参数 Megatron-Turing NLG 530B|2021|5.3×10^11 个参数 Yuan 1.0|2021|2.5×10^11 个参数 base LM+GNN+kNN|2021|2.7×10^8 个参数 Eve|2021|1.5×10^7 个参数 CodeT5-base|2021|2.2×10^8 个参数 S4|2021|2.5×10^8 个参数 Masked Autoencoders ViT-H|2021|6.3×10^8 个参数 ViT-G/14 (LiT)|2021|3.0×10^9 个参数 BASIC-L|2021|3.1×10^9 个参数 Swin Transformer V2 (SwinV2-G)|2021|3.0×10^9 个参数 Florence|2021|8.9×10^8 个参数 NÜWA|2021|8.7×10^8 个参数 T-NLRv5 XXL|2021|5.4×10^9 个参数 Gopher (280B)|2021|2.8×10^11 个参数 GLaM|2021|1.2×10^12 个参数 LongT5|2021|3.0×10^9 个参数 Contriever|2021|1.1×10^8 个参数 LDM-1.45B|2021|1.5×10^9 个参数 XGLM-7.5B|2021|7.5×10^9 个参数 ERNIE 3.0 Titan|2021|2.6×10^11 个参数 ERNIE-ViLG|2022|1.0×10^10 个参数 Detic|2022|8.8×10^7 个参数 data2vec (language)|2022|7.1×10^8 个参数 data2vec (speech)|2022|7.1×10^8 个参数 data2vec (vision)|2022|7.1×10^8 个参数 AbLang (heavy sequences)|2022|3.6×10^8 个参数 OntoProtein|2022|4.2×10^8 个参数 InstructGPT 1.3B|2022|1.3×10^9 个参数 InstructGPT 175B|2022|1.8×10^11 个参数 InstructGPT 6B|2022|6.0×10^9 个参数 AlphaCode|2022|4.1×10^10 个参数 MaskGIT (ImageNet)|2022|2.3×10^8 个参数 RETRO-7B|2022|7.5×10^9 个参数 GPT-NeoX-20B|2022|2.0×10^10 个参数 LaMDA|2022|1.4×10^11 个参数 ProteinBERT|2022|1.6×10^7 个参数 ST-MoE|2022|2.7×10^11 个参数 PolyCoder|2022|2.7×10^9 个参数 DeepNet|2022|3.2×10^9 个参数 Statement Curriculum Learning|2022|7.7×10^8 个参数 ViT-G (model soup)|2022|1.8×10^9 个参数 Make-A-Scene|2022|4.0×10^9 个参数 Segatron-XL large, M=384 + HCP|2022|2.6×10^8 个参数 Chinchilla|2022|7.0×10^10 个参数 PaLM (540B)|2022|5.4×10^11 个参数 BERT-RBP|2022|1.1×10^8 个参数 DALL·E 2|2022|3.5×10^9 个参数 Sparse all-MLP|2022|9.4×10^9 个参数 Stable Diffusion (LDM-KL-8-G)|2022|1.5×10^9 个参数 Flamingo|2022|8.0×10^10 个参数 OPT-175B|2022|1.8×10^11 个参数 DeBERTaV3large + KEAR|2022|4.2×10^8 个参数 UL2|2022|2.0×10^10 个参数 Gato|2022|1.2×10^9 个参数 Imagen|2022|7.8×10^9 个参数 GPT-2 Medium (FlashAttention)|2022|3.6×10^8 个参数 Tranception|2022|7.0×10^8 个参数 CogVideo|2022|9.4×10^9 个参数 DITTO|2022|7.5×10^8 个参数 CoCa|2022|2.1×10^9 个参数 Parti|2022|2.0×10^10 个参数 ProGen2-xlarge|2022|6.4×10^9 个参数 Minerva (540B)|2022|5.4×10^11 个参数 CodeT5-large|2022|7.7×10^8 个参数 NLLB|2022|5.5×10^10 个参数 BLOOM-176B|2022|1.8×10^11 个参数 ESM2-15B|2022|1.5×10^10 个参数 OmegaPLM|2022|6.7×10^8 个参数 AlexaTM 20B|2022|2.0×10^10 个参数 GLM-130B|2022|1.3×10^11 个参数 BlenderBot 3|2022|1.8×10^11 个参数 BEIT-3|2022|1.9×10^9 个参数 PaLI|2022|1.7×10^10 个参数 Whisper|2022|1.6×10^9 个参数 DiffDock|2022|2.0×10^7 个参数 Phenaki|2022|1.8×10^9 个参数 GenSLM|2022|2.5×10^10 个参数 Flan-PaLM 540B|2022|5.4×10^11 个参数 LMSI-Palm|2022|5.4×10^11 个参数 U-PaLM (540B)|2022|5.4×10^11 个参数 Mogrifier RLSTM (WT2)|2022|3.5×10^7 个参数 eDiff-I|2022|9.1×10^9 个参数 mT0-13B|2022|1.3×10^10 个参数 InternImage|2022|1.1×10^9 个参数 EVA-01|2022|1.0×10^9 个参数 Galactica|2022|1.2×10^11 个参数 AR-LDM|2022|1.5×10^9 个参数 Fusion in Encoder|2022|3.3×10^8 个参数 ALM 1.0|2022|3.4×10^8 个参数 Vega v2|2022|6.0×10^9 个参数 RT-1|2022|3.5×10^7 个参数 CaLM|2022|8.6×10^7 个参数 Hybrid H3-2.7B|2022|2.7×10^9 个参数 VALL-E|2023|3.5×10^8 个参数 DreamerV3|2023|2.0×10^8 个参数 Ankh_large|2023|1.9×10^9 个参数 Nucleotide Transformer|2023|2.5×10^9 个参数 DDPM-IP (CelebA)|2023|3.0×10^8 个参数 MusicLM|2023|8.6×10^8 个参数 BLIP-2 (Q-Former)|2023|1.5×10^9 个参数 ViT-22B|2023|2.2×10^10 个参数 BASIC-L + Lion|2023|3.1×10^9 个参数 LLaMA-65B|2023|6.5×10^10 个参数 DiT-XL/2|2023|6.8×10^8 个参数 AudioGen|2023|1.0×10^9 个参数 PaLM-E|2023|5.6×10^11 个参数 Falcon-40B|2023|4.0×10^10 个参数 GPT-4 (Jun 2023)|2023|1.8×10^12 个参数 GPT-4 (Mar 2023)|2023|1.8×10^12 个参数 LEP-AD|2023|3.0×10^9 个参数 PanGu-Σ|2023|1.1×10^12 个参数 SigLIP 400M|2023|4.0×10^8 个参数 BloombergGPT|2023|5.1×10^10 个参数 VideoMAE V2|2023|1.0×10^9 个参数 Segment Anything Model|2023|6.4×10^8 个参数 Incoder-6.7B|2023|6.7×10^9 个参数 DINOv2|2023|1.1×10^9 个参数 LLaVA|2023|1.3×10^10 个参数 ImageBind|2023|9.3×10^8 个参数 PaLM 2|2023|3.4×10^11 个参数 StarCoder|2023|1.6×10^10 个参数 InstructBLIP|2023|1.3×10^10 个参数 CoEdiT-xxl|2023|1.1×10^10 个参数 Med-PaLM 2|2023|3.4×10^11 个参数 CodeT5+|2023|1.6×10^10 个参数 ONE-PEACE|2023|4.0×10^9 个参数 Goat-7B|2023|7.0×10^9 个参数 DPO on Pythia-2.8B|2023|2.8×10^9 个参数 PaLI-X|2023|5.5×10^10 个参数 MusicGen|2023|3.4×10^9 个参数 GPT-3.5 Turbo|2023|2.0×10^10 个参数 HyenaDNA|2023|6.6×10^6 个参数 Stable Diffusion XL (SDXL)|2023|3.4×10^9 个参数 InternLM|2023|1.0×10^11 个参数 Pangu-Weather|2023|2.6×10^8 个参数 xTrimoPGLM -100B|2023|1.0×10^11 个参数 GPT3-2.7B (FlashAttention-2)|2023|2.7×10^9 个参数 Llama 2-70B|2023|7.0×10^10 个参数 Llama 2-7B|2023|7.0×10^9 个参数 AudioLM|2023|1.5×10^9 个参数 RT-2|2023|5.5×10^10 个参数 Qwen-VL|2023|9.6×10^9 个参数 Jais|2023|1.3×10^10 个参数 Swift|2023|5.7×10^4 个参数 Falcon-180B|2023|1.8×10^11 个参数 Robot Parkour|2023|5.0×10^5 个参数 AlphaMissense|2023|9.3×10^7 个参数 Amazon Titan|2023|2.0×10^11 个参数 GPT-3.5 Turbo Instruct|2023|2.0×10^10 个参数 FinGPT-13B|2023|1.3×10^10 个参数 Ferret (13B)|2023|1.3×10^10 个参数 RT-2-X|2023|5.5×10^10 个参数 PaLI-3|2023|5.0×10^9 个参数 CODEFUSION (Python)|2023|7.5×10^7 个参数 ChatGLM3-6B|2023|6.0×10^9 个参数 DiT-XL/2 + CADS|2023|6.8×10^8 个参数 Skywork-13B|2023|1.3×10^10 个参数 BLUUMI|2023|1.8×10^11 个参数 Grok-1|2023|3.1×10^11 个参数 LLaVA 1.5|2023|1.3×10^10 个参数 Yi-34B|2023|3.4×10^10 个参数 CogVLM-17B|2023|1.7×10^10 个参数 RoFormer|2023|1.1×10^8 个参数 mPLUG-Owl2|2023|7.1×10^9 个参数 Nemotron-3-8B|2023|8.0×10^9 个参数 Qwen-Audio-Chat|2023|8.5×10^9 个参数 SPHINX (Llama 2 13B)|2023|2.0×10^10 个参数 Volcano 13B|2023|1.3×10^10 个参数 GNoME for crystal discovery|2023|1.6×10^7 个参数 PPLX-70B-Online|2023|7.0×10^10 个参数 Qwen-72B|2023|7.2×10^10 个参数 Mamba-24M (SC09)|2023|2.3×10^7 个参数 Llama Guard|2023|7.0×10^9 个参数 SeamlessM4T|2023|2.3×10^9 个参数 Mixtral 8x7B|2023|4.7×10^10 个参数 W.A.L.T|2023|4.7×10^9 个参数 CogAgent|2023|1.8×10^10 个参数 FunSearch|2023|1.5×10^10 个参数 VILA-13B|2023|1.3×10^10 个参数 Gemini Nano-1|2023|1.8×10^9 个参数 Gemini Nano-2|2023|3.3×10^9 个参数 nekomata-14b|2023|1.4×10^10 个参数 GQA-8-XXL|2023|1.1×10^10 个参数 CoRe|2023|1.2×10^10 个参数 Palmyra X 003|2024|7.2×10^10 个参数 AlphaGeometry|2024|1.5×10^8 个参数 Qwen-VL-Max|2024|7.0×10^9 个参数 Qwen1.5-72B|2024|7.2×10^10 个参数 Aya|2024|1.3×10^10 个参数 MegaScale (Production)|2024|5.3×10^11 个参数 Stable Diffusion 3|2024|8.0×10^9 个参数 Aramco Metabrain AI|2024|2.5×10^11 个参数 MM1-30B|2024|3.0×10^10 个参数 DBRX|2024|1.3×10^11 个参数 ReALM|2024|3.0×10^9 个参数 Reka Core|2024|6.7×10^10 个参数 Llama 3-70B|2024|7.0×10^10 个参数 VILA1.5-13B|2024|1.4×10^10 个参数 Yi-Large|2024|1.0×10^11 个参数 Octo-Base|2024|9.3×10^7 个参数 ALLaM adapted 70B|2024|7.0×10^10 个参数 Qwen2-72B|2024|7.3×10^10 个参数 Nemotron-4 340B|2024|3.4×10^11 个参数 OpenVLA|2024|7.2×10^9 个参数 DeepSeek-Coder-V2 236B|2024|2.4×10^11 个参数 Cambrian-1-34B|2024|3.4×10^10 个参数 ESM3 (98B)|2024|9.9×10^10 个参数 SenseChat 5.5|2024|6.0×10^11 个参数 Mathstral|2024|7.0×10^9 个参数 Llama 3.1-405B|2024|4.1×10^11 个参数 Mistral Large 2|2024|1.2×10^11 个参数 AFM-on-device|2024|2.7×10^9 个参数 LLaVA-OV-72B|2024|7.2×10^10 个参数 Table Tennis Agent|2024|1.9×10^5 个参数 Jamba 1.5-Large|2024|4.0×10^11 个参数 DeepSeek-V2.5|2024|2.4×10^11 个参数 Qwen2.5-32B|2024|3.3×10^10 个参数 Oryx 34B|2024|3.4×10^10 个参数 Qwen2.5 Instruct (72B)|2024|7.3×10^10 个参数 Qwen2.5-72B|2024|7.3×10^10 个参数 Telechat2-115B|2024|1.2×10^11 个参数 Llama 3.2 11B|2024|1.1×10^10 个参数 Movie Gen Video|2024|3.0×10^10 个参数 GR-2|2024|2.3×10^8 个参数 Palmyra X 004|2024|1.5×10^11 个参数 RDT-1B|2024|1.2×10^9 个参数 NVLM-D 72B|2024|7.2×10^10 个参数 NVLM-H 72B|2024|7.2×10^10 个参数 NVLM-X 72B|2024|7.2×10^10 个参数 Doubao-pro|2024|5.0×10^11 个参数 Hunyuan-Large|2024|3.9×10^11 个参数 Pixtral Large|2024|1.2×10^11 个参数 Fugatto 1|2024|2.5×10^9 个参数 Infinity|2024|2.0×10^9 个参数 Llama 3.3 70B|2024|7.0×10^10 个参数 NVILA 15B|2024|1.5×10^10 个参数 EXAONE 3.5 32B|2024|3.2×10^10 个参数 Apollo 7B|2024|7.0×10^9 个参数 DeepSeek-V3|2024|6.7×10^11 个参数 STORM-B/8|2025|1.0×10^8 个参数 INTELLECT-MATH|2025|7.0×10^9 个参数 DeepSeek-R1|2025|6.7×10^11 个参数 Eagle 2|2025|8.9×10^9 个参数 Eurus-2-7B-PRIME|2025|7.0×10^9 个参数 Grok 3|2025|3.0×10^12 个参数 QwQ-32B|2025|3.3×10^10 个参数 Hunyuan-TurboS|2025|5.6×10^11 个参数 ERNIE-4.5-VL-424B-A47B (文心大模型4.5)|2025|4.2×10^11 个参数 EXAONE Deep 32B|2025|3.2×10^10 个参数 DeepSeek-V3 (Mar 2025)|2025|6.7×10^11 个参数 Diffusion Renderer|2025|1.1×10^9 个参数 Llama 4 Behemoth (preview)|2025|2.0×10^12 个参数 Llama 4 Maverick|2025|4.0×10^11 个参数 Llama 4 Scout|2025|1.1×10^11 个参数 Pangu Ultra|2025|1.3×10^11 个参数 Qwen3-235B-A22B|2025|2.4×10^11 个参数 DeepSeek-R1 (May 2025)|2025|6.7×10^11 个参数 Qwen3 Embedding|2025|8.0×10^9 个参数 FGN|2025|7.2×10^8 个参数 Seed-1.6-Thinking|2025|2.3×10^11 个参数 EXAONE Path 2.0|2025|1.8×10^8 个参数 Grok 4|2025|3.0×10^12 个参数 Kimi K2|2025|1.0×10^12 个参数 EXAONE 4.0 (32B)|2025|3.2×10^10 个参数 Qwen3-Coder-480B-A35B|2025|4.8×10^11 个参数 Qwen3-235B-A22B (Jul 2025)|2025|2.4×10^11 个参数 Qwen3-235B-A22B-Thinking (Jul 2025)|2025|2.4×10^11 个参数 MindLink-72B|2025|7.2×10^10 个参数 GLM-4.5|2025|3.6×10^11 个参数 Hierarchical Reasoning Model (HPM)|2025|2.7×10^7 个参数 Qwen Image|2025|2.7×10^10 个参数 gpt-oss-120b|2025|1.2×10^11 个参数 gpt-oss-20b|2025|2.1×10^10 个参数 LongCat-Flash|2025|5.6×10^11 个参数 Qwen3-Max|2025|1.0×10^12 个参数 AgentFounder-30B|2025|3.0×10^10 个参数 Qwen3-Omni-30B-A3B|2025|3.5×10^10 个参数 GLM-4.6|2025|3.6×10^11 个参数 Ling-1T|2025|1.0×10^12 个参数 MiniMax-M2|2025|2.3×10^11 个参数 Tongyi DeepResearch|2025|3.1×10^10 个参数 Kimi K2 Thinking|2025|1.0×10^12 个参数 Olmo 3|2025|3.2×10^10 个参数 P1-235B-A22B|2025|2.4×10^11 个参数 π0.6 (pi-0.6)|2025|5.3×10^9 个参数 DeepSeekMath-V2|2025|6.9×10^11 个参数 Nemotron 3-Nano-30B-A3B|2025|3.2×10^10 个参数 GLM-4.7|2025|3.6×10^11 个参数 MiniMax-M2.1|2025|2.3×10^11 个参数 A.X K1|2025|5.2×10^11 个参数 HyperCLOVA X SEED 32B Think|2025|3.2×10^10 个参数 |2025|1.0×10^11 个参数 K-EXAONE|2026|2.4×10^11 个参数 |2026|1.0×10^11 个参数 Kimi K2.5|2026|1.0×10^12 个参数 Qwen3-Coder-Next|2026|8.0×10^10 个参数 Qwen3.5 397B-A17B|2026|4.0×10^11 个参数 GLM-5|2026|7.4×10^11 个参数 Grok 4.20|2026|5.0×10^11 个参数 Qwen3.5-122B-A10B|2026|1.2×10^11 个参数 Nemotron 3 Super|2026|1.2×10^11 个参数 Composer 2|2026|1.0×10^12 个参数 MiMo-V2-Pro|2026|1.0×10^12 个参数 GLM-5.1|2026|7.5×10^11 个参数 Kimi K2.6|2026|1.0×10^12 个参数 DeepSeek-V4-Flash|2026|2.8×10^11 个参数 DeepSeek-V4-Pro|2026|1.6×10^12 个参数 MiMo-V2.5-Pro|2026|1.0×10^12 个参数 TML-Interaction-Small|2026|2.8×10^11 个参数 Composer 2.5|2026|1.0×10^12 个参数 Nemotron 3 Ultra|2026|5.5×10^11 个参数 产业界 学术界 产学合作 其他 每个点为一个知名 AI 模型,纵轴=可训练参数量(对数轴),按开发方类型着色;共 702 个模型。 训练数据量趋势 训练数据集的样本 / token 规模——喂进模型的样本 / token 规模。数据量与算力、参数量一同增长,是规模定律的第三根支柱。
1 10³ 10⁶ 10⁹ 10¹² 10¹⁵ 1960 1980 2000 2020 发布年份 训练数据量(个样本,对数轴) Theseus|1950|4.0×10^1 个样本 Self Organizing System|1955|2.0×10^0 个样本 Perceptron Mark I|1957|1.0×10^2 个样本 Pattern recognition and reading by machine|1959|1.8×10^2 个样本 Perceptron (1960)|1960|1.0×10^2 个样本 ADALINE|1960|1.0×10^2 个样本 Linear Decision Functions|1962|5.0×10^2 个样本 MADALINE I|1962|2.6×10^2 个样本 LTE speaker verification system|1966|4.2×10^2 个样本 GLEE|1968|6.0×10^3 个样本 Piecewise linear model|1973|3.1×10^2 个样本 Cognitron|1975|5.0×10^0 个样本 Neocognitron|1980|5.0×10^0 个样本 Kohonen network|1981|4.0×10^3 个样本 ASE+ACE|1983|5.0×10^5 个样本 Hierarchical Cognitron|1984|5.0×10^0 个样本 Error Propagation|1986|6.4×10^1 个样本 Distributed representation NN|1986|1.0×10^2 个样本 MLP with back-propagation|1986|1.0×10^2 个样本 NetTalk (dictionary)|1987|5.0×10^3 个样本 NetTalk (transcription)|1987|5.1×10^3 个样本 Translation-invariant MLP|1987|1.6×10^2 个样本 MLN-ASR|1988|1.3×10^4 个样本 MLP baggage detector|1989|2.0×10^4 个样本 Q-learning|1989|2.0×10^5 个样本 Handwritten digit recognition network|1989|9.8×10^3 个样本 Speaker-independent vowel classification|1989|4.1×10^3 个样本 Zip CNN|1989|7.3×10^3 个样本 NETtalk reimplementation|1990|7.2×10^3 个样本 Bankruptcy-NN|1990|7.4×10^1 个样本 ISR network|1990|6.0×10^5 个样本 SexNet classification|1990|8.0×10^1 个样本 SexNet compression|1990|8.1×10^4 个样本 RAAM|1990|2.9×10^1 个样本 Weight Decay|1991|2.5×10^4 个样本 TD-Gammon|1992|6.3×10^6 个样本 Golem|1992|1.6×10^3 个样本 Cancer drug mechanism prediction|1992|1.4×10^2 个样本 Boosting|1992|2.9×10^4 个样本 IBM-5|1993|2.9×10^7 个样本 Siamese-TDNN|1993|7.7×10^3 个样本 ANN Eye Tracker|1993|4.0×10^3 个样本 Ceramic-MLP|1994|8.0×10^1 个样本 JPMAX|1994|1.5×10^3 个样本 Mixture of linear models|1994|1.8×10^6 个样本 NeuroChess|1994|9.6×10^6 个样本 Predictive Coding NN|1994|6.0×10^5 个样本 Support Vector Machines|1995|6.0×10^4 个样本 LISSOM|1995|2.0×10^3 个样本 MUSIC perceptron|1996|8.1×10^4 个样本 System 11|1996|2.4×10^4 个样本 AdaBoost.M2 Digit Recognition|1996|9.7×10^3 个样本 SOM-CNN|1997|1.3×10^5 个样本 Bidirectional RNN|1997|1.4×10^5 个样本 LSTM|1997|8.5×10^5 个样本 LeNet-5|1998|6.0×10^4 个样本 LSTM with forget gates|1999|1.4×10^8 个样本 RECONTRA-categorized|1999|4.0×10^4 个样本 RECONTRA-uncategorized|1999|5.8×10^4 个样本 IBM Model 4|1999|8.0×10^5 个样本 Neural LM|2000|3.2×10^7 个样本 PoE MNIST|2000|5.4×10^4 个样本 Gradient Boosting Machine|2001|5.0×10^3 个样本 Decision tree (classification)|2001|7.5×10^5 个样本 Thumbs Up?|2002|1.4×10^3 个样本 NPLM (AP News)|2003|1.4×10^7 个样本 NPLM (Brown)|2003|1.4×10^7 个样本 Invariant CNN|2004|2.4×10^4 个样本 LMICA|2004|1.0×10^5 个样本 Hierarchical LM|2005|9.0×10^5 个样本 Histograms of Oriented Gradients|2005|1.5×10^4 个样本 RankNet|2005|3.5×10^6 个样本 TFE SVM|2006|6.0×10^5 个样本 SVM-CNN|2006|5.8×10^5 个样本 Spatial Pyramid Matching|2006|3.0×10^3 个样本 Deep Belief Nets|2006|4.7×10^7 个样本 Dimensionality Reduction|2006|4.7×10^7 个样本 Greedy layer-wise DNN training|2006|1.1×10^8 个样本 Local Binary Patterns for facial recognition|2006|7.4×10^2 个样本 KN-LM|2007|3.1×10^10 个样本 SB-LM|2007|1.8×10^12 个样本 BLSTM for handwriting (1)|2007|4.1×10^5 个样本 Enhanced Neighborhood-Based Filtering|2007|1.0×10^8 个样本 BLSTM for handwriting (2)|2007|3.3×10^6 个样本 Deep Multitask NLP Network|2008|6.3×10^8 个样本 Denoising Autoencoders|2008|7.8×10^6 个样本 HLBL|2008|1.4×10^7 个样本 GNN|2008|2.1×10^2 个样本 RBM Image Classifier|2009|6.1×10^9 个样本 GPU DBNs|2009|1.2×10^11 个样本 MatrixFac for Recommenders|2009|1.0×10^8 个样本 Two Stage Feature Extraction (MNIST)|2009|5.0×10^4 个样本 LCNP LabelMe|2009|4.0×10^4 个样本 LCNP MNIST|2009|5.0×10^4 个样本 LCNP NORB|2009|2.4×10^4 个样本 Stacked Denoising Autoencoders|2010|3.4×10^8 个样本 Feedforward NN|2010|9.0×10^4 个样本 ReLU (LFW)|2010|2.3×10^5 个样本 ReLU (NORB)|2010|2.9×10^5 个样本 iCCCP|2010|1.0×10^4 个样本 Pooling CNN (Caltech 101)|2010|3.1×10^3 个样本 Pooling CNN (NORB)|2010|2.4×10^4 个样本 RNN LM|2010|6.4×10^6 个样本 Deep rectifier networks|2011|8.2×10^7 个样本 Deep Autoencoders|2011|4.9×10^9 个样本 Vector Space Model|2011|5.7×10^6 个样本 Recursive Neural Network|2011|5.7×10^5 个样本 High Performance CNN (NORB)|2011|5.0×10^4 个样本 CNN Committee (MNIST)|2011|4.2×10^5 个样本 CNN Committee (NIST)|2011|3.4×10^6 个样本 Adaptive Subgrad|2011|8.0×10^5 个样本 CNN committee (traffic sign)|2011|5.3×10^4 个样本 NLP from scratch|2011|8.5×10^8 个样本 Dropout (CIFAR)|2012|6.0×10^4 个样本 Dropout (ImageNet)|2012|2.6×10^6 个样本 Dropout (MNIST)|2012|6.0×10^4 个样本 Unsupervised High-level Feature Learner|2012|1.2×10^12 个样本 Context-dependent RNN|2012|3.7×10^7 个样本 LSTM LM|2012|2.7×10^7 个样本 AlexNet|2012|2.5×10^9 个样本 Bayesian automated hyperparameter tuning|2012|5.0×10^4 个样本 DNN EM segmentation|2012|3.0×10^6 个样本 DistBelief Speech|2012|1.1×10^9 个样本 DistBelief Vision|2012|1.6×10^7 个样本 RNN+LDA+KN5+cache|2012|9.3×10^5 个样本 DistBelief NNLM|2013|6.0×10^9 个样本 Multilingual DNN|2013|3.1×10^9 个样本 Hierarchical Scene Labeling (Stanford Background)|2013|7.1×10^7 个样本 RCTM|2013|4.5×10^6 个样本 RNTN|2013|1.6×10^5 个样本 Word2Vec (large)|2013|3.3×10^11 个样本 Word2Vec (small)|2013|1.0×10^10 个样本 Visualizing CNNs|2013|7.7×10^6 个样本 DeViSE|2013|5.4×10^9 个样本 TransE|2013|1.8×10^7 个样本 RNN for 1B words|2013|1.0×10^9 个样本 DQN|2013|1.6×10^8 个样本 Network in Network|2013|6.3×10^5 个样本 Image generation|2013|4.7×10^7 个样本 GloVe (32B)|2014|3.2×10^8 个样本 GloVe (6B)|2014|6.6×10^7 个样本 HyperNEAT|2014|7.5×10^8 个样本 Paragraph Vector|2014|1.6×10^7 个样本 AdaRNN|2014|6.3×10^3 个样本 Dropout: SVHN|2014|6.0×10^5 个样本 GANs|2014|1.2×10^5 个样本 Two-stream ConvNets for action recognition|2014|1.3×10^6 个样本 SPPNet|2014|1.3×10^6 个样本 DeepFace|2014|4.4×10^6 个样本 Fragment embedding|2014|1.5×10^7 个样本 Multiresolution CNN|2014|5.0×10^7 个样本 ACF-WIDER|2014|1.4×10^5 个样本 NPD|2014|4.4×10^5 个样本 RNNsearch-50*|2014|2.3×10^8 个样本 VGG16|2014|1.3×10^6 个样本 VGG19|2014|1.3×10^6 个样本 Seq2Seq LSTM|2014|8.7×10^8 个样本 SPN-4+KN5|2014|9.3×10^5 个样本 Deeply-supervised nets|2014|6.0×10^5 个样本 GoogLeNet / InceptionV1|2014|5.7×10^11 个样本 Spatially-Sparse CNN|2014|9.0×10^5 个样本 LRCN|2014|4.0×10^5 个样本 SC-NLM|2014|5.0×10^6 个样本 Cascaded LNet-ANet|2014|9.3×10^6 个样本 TA-CNN|2014|4.5×10^4 个样本 SNM-skip|2014|8.0×10^8 个样本 Fractional Max-Pooling|2014|9.0×10^5 个样本 ADAM (CIFAR-10)|2014|5.0×10^4 个样本 VGG-Face|2015|2.6×10^6 个样本 MSRA (C, PReLU)|2015|1.3×10^6 个样本 DQN-2015|2015|1.2×10^7 个样本 genCNN + dyn eval|2015|9.3×10^5 个样本 TC-DNN-BLSTM-DNN|2015|2.9×10^7 个样本 Fast R-CNN|2015|2.6×10^7 个样本 U-Net|2015|7.9×10^6 个样本 Faster R-CNN|2015|1.0×10^8 个样本 CFSS|2015|1.4×10^5 个样本 BatchNorm|2015|1.2×10^10 个样本 Deep CNN + COTS|2015|4.9×10^5 个样本 DCNN|2015|4.9×10^5 个样本 BPE|2015|5.0×10^7 个样本 AlphaGo Fan|2015|1.3×10^10 个样本 SAF R-CNN|2015|3.5×10^5 个样本 3DDFA|2015|2.9×10^5 个样本 Inception v3|2015|1.2×10^6 个样本 SSD|2015|2.3×10^6 个样本 ResNet-101 (ImageNet)|2015|1.3×10^6 个样本 ResNet-110 (CIFAR-10)|2015|5.0×10^4 个样本 ResNet-152 (ImageNet)|2015|1.3×10^6 个样本 Advantage Learning|2015|1.0×10^8 个样本 Variational (untied weights, MC) LSTM (Large)|2015|9.3×10^5 个样本 AlphaGo Lee|2016|3.0×10^8 个样本 A3C FF hs|2016|2.0×10^8 个样本 Inception-ResNet-V2|2016|1.3×10^6 个样本 Inceptionv4|2016|1.3×10^6 个样本 SqueezeNet|2016|1.3×10^6 个样本 Named Entity Recognition model|2016|2.1×10^5 个样本 |2016|7.8×10^3 个样本 Gated HORNN (3rd order)|2016|2.2×10^7 个样本 LRR-4X|2016|1.5×10^8 个样本 PixelCNN|2016|1.6×10^10 个样本 R-FCN|2016|1.1×10^7 个样本 CCL|2016|2.0×10^4 个样本 SimpleNet|2016|1.3×10^6 个样本 LF-MMI|2016|7.2×10^5 个样本 MS-ensemble-speech-recognition|2016|1.1×10^10 个样本 WaveNet|2016|1.2×10^10 个样本 ResNet-1001|2016|5.0×10^4 个样本 ResNet-200|2016|1.3×10^6 个样本 Wide Residual Network|2016|1.3×10^6 个样本 GNMT|2016|7.2×10^8 个样本 Pointer Sentinel-LSTM (medium)|2016|9.3×10^5 个样本 GAWWN|2016|2.4×10^5 个样本 Xception|2016|3.5×10^8 个样本 SPIDER2|2016|1.4×10^7 个样本 BIDAF|2016|8.8×10^5 个样本 NAS with base 8 and shared embeddings|2016|9.3×10^5 个样本 NASv3 (CIFAR-10)|2016|4.5×10^4 个样本 VD-LSTM+REAL Large|2016|9.3×10^5 个样本 DLDL (PASCAL)|2016|2.3×10^4 个样本 DTN (Domain Transfer Network)|2016|2.0×10^6 个样本 DAC-CSR|2016|2.0×10^4 个样本 ResNeXt-101 (64×4d)|2016|1.3×10^6 个样本 ResNeXt-50|2016|1.3×10^6 个样本 PolyNet|2016|1.3×10^6 个样本 Image-to-image cGAN|2016|2.4×10^6 个样本 PointNet|2016|9.8×10^3 个样本 3DMM-CNN|2016|5.0×10^5 个样本 HR-ResNet101|2016|8.2×10^6 个样本 EnhanceNet|2016|9.8×10^9 个样本 YOLOv2|2016|1.3×10^6 个样本 DeepStack|2017|2.5×10^10 个样本 OR-WideResNet|2017|5.0×10^4 个样本 MoE-Multi|2017|8.7×10^10 个样本 DnCNN|2017|2.6×10^9 个样本 Prototypical networks|2017|3.8×10^4 个样本 Mask R-CNN|2017|4.6×10^10 个样本 MobileNet|2017|1.3×10^6 个样本 DeepLab (2017)|2017|2.6×10^7 个样本 Mnemonic Reader|2017|2.2×10^5 个样本 SRGAN|2017|7.0×10^5 个样本 Inflated 3D ConvNet|2017|2.4×10^5 个样本 PointNet++|2017|6.0×10^4 个样本 Reading Twice for NLU|2017|2.0×10^5 个样本 Transformer (2017)|2017|8.3×10^8 个样本 HRA|2017|1.5×10^8 个样本 DeepLabV3|2017|8.4×10^9 个样本 NoisyNet-Dueling|2017|3.2×10^8 个样本 ShuffleNet v1|2017|1.3×10^6 个样本 JFT|2017|5.5×10^12 个样本 AWD-LSTM|2017|2.0×10^6 个样本 NASNet-A|2017|1.3×10^6 个样本 ConvS2S (ensemble of 8 models)|2017|1.2×10^9 个样本 GSM|2017|2.2×10^5 个样本 AWD-LSTM - 3-layer LSTM (tied) + continuous cache pointer (WT2)|2017|2.0×10^6 个样本 RetinaNet-R101|2017|1.2×10^5 个样本 RetinaNet-R50|2017|1.2×10^10 个样本 EI-REHN-1000D|2017|9.3×10^5 个样本 NeuMF (Pinterest)|2017|1.5×10^6 个样本 GL-LWGC-AWD-MoS-LSTM + dynamic evaluation (WT2)|2017|2.0×10^6 个样本 PyramidNet|2017|1.3×10^6 个样本 SENet (ImageNet)|2017|1.3×10^6 个样本 ISS|2017|9.3×10^5 个样本 LSTM + dynamic eval|2017|9.0×10^7 个样本 AWD-LSTM+WT+Cache+IOG (WT2)|2017|2.0×10^6 个样本 AlphaGo Zero|2017|6.4×10^9 个样本 PhraseCond|2017|1.6×10^5 个样本 S-Norm|2017|1.1×10^6 个样本 DCN+|2017|2.2×10^5 个样本 Fraternal dropout + AWD-LSTM 3-layer (WT2)|2017|2.0×10^6 个样本 VQ-VAE|2017|6.3×10^10 个样本 AWD-LSTM-MoS + dynamic evaluation (WT2, 2017)|2017|2.0×10^6 个样本 TriNet|2017|5.1×10^5 个样本 DL scaling LM|2017|4.0×10^8 个样本 DL scaling speech|2017|2.2×10^9 个样本 AlphaZero|2017|3.5×10^9 个样本 ELMo|2018|2.0×10^9 个样本 QRNN|2018|1.0×10^8 个样本 T-DMCA|2018|1.4×10^10 个样本 DeepLabV3+|2018|8.7×10^9 个样本 IMPALA|2018|1.1×10^10 个样本 TCN (P-MNIST)|2018|6.0×10^4 个样本 4 layer QRNN (h=2500)|2018|1.0×10^8 个样本 YOLOv3|2018|5.4×10^6 个样本 Dropout-LSTM+Noise(Bernoulli) (WT2)|2018|2.0×10^6 个样本 ResNeXt-101 32x48d|2018|9.4×10^8 个样本 aLSTM(depth-2)+RecurrentPolicy (WT2)|2018|2.0×10^6 个样本 GPT-1|2018|1.3×10^9 个样本 Relational Memory Core|2018|4.0×10^9 个样本 MobileNetV2|2018|1.3×10^6 个样本 FTW (For The Win)|2018|2.0×10^9 个样本 Big-Little Net|2018|1.3×10^6 个样本 Big-Little Net (speech)|2018|7.2×10^8 个样本 AWD-LSTM-MoS+PDR + dynamic evaluation (WT2)|2018|2.0×10^6 个样本 Big Transformer for Back-Translation|2018|4.5×10^9 个样本 (ensemble): AWD-LSTM-DOC (fin) × 5 (WT2)|2018|2.0×10^6 个样本 AWD-LSTM-MoS + dynamic evaluation (WT2, 2018)|2018|2.0×10^6 个样本 Transformer + Simple Recurrent Unit|2018|1.1×10^8 个样本 LSTM+NeuralCache|2018|2.0×10^6 个样本 Transformer (Adaptive Input Embeddings) WT103|2018|1.0×10^8 个样本 BERT-Large|2018|2.7×10^9 个样本 TrellisNet|2018|1.0×10^8 个样本 MemoReader|2018|1.1×10^6 个样本 Mesh-TensorFlow Transformer 2.9B (translation)|2018|1.6×10^9 个样本 Mesh-TensorFlow Transformer 4.9B (language)|2018|5.0×10^9 个样本 Fine-tuned-AWD-LSTM-DOC (fin)|2018|1.0×10^6 个样本 GPipe (Transformer)|2018|1.5×10^12 个样本 Multi-cell LSTM|2018|9.3×10^5 个样本 SPN (ImageNet 128)|2018|2.5×10^11 个样本 StyleGAN|2018|5.0×10^7 个样本 Transformer ELMo|2019|2.0×10^9 个样本 Transformer-XL (257M)|2019|1.0×10^8 个样本 Hanabi 4 player|2019|2.0×10^10 个样本 MT-DNN|2019|1.0×10^6 个样本 GPT-2 (1.5B)|2019|1.1×10^10 个样本 KataGo|2019|2.4×10^8 个样本 SciBERT|2019|3.2×10^9 个样本 True-Regularization+Finetune+Dynamic-Eval|2019|9.3×10^5 个样本 WeNet (Penn Treebank)|2019|9.3×10^5 个样本 Transformer-XL + RMS dynamic eval|2019|1.0×10^8 个样本 BERT-Large-CAS (PTB+WT2+WT103)|2019|1.3×10^9 个样本 Neuro-Symbolic Concept Learner|2019|1.0×10^5 个样本 ResNeXt-101 Billion-scale|2019|9.0×10^7 个样本 AWD-LSTM-DRILL + dynamic evaluation† (WT2)|2019|2.0×10^6 个样本 EfficientNet-L2|2019|1.3×10^6 个样本 DLRM-2020|2019|3.9×10^7 个样本 XLNet|2019|3.3×10^10 个样本 Transformer-XL Large + Phrase Induction|2019|1.0×10^8 个样本 AWD-LSTM + MoS + Partial Shuffled|2019|2.0×10^6 个样本 Char-CNN-BiLSTM|2019|9.3×10^5 个样本 FixRes ResNeXt-101 WSL|2019|9.4×10^8 个样本 LaNet-L (CIFAR-10)|2019|6.0×10^4 个样本 BigBiGAN|2019|2.6×10^6 个样本 RoBERTa Large|2019|4.3×10^10 个样本 Mogrifier (d2, MoS2, MC) + dynamic eval|2019|2.0×10^6 个样本 UDSMProt|2019|1.5×10^8 个样本 Megatron-BERT|2019|7.0×10^9 个样本 Megatron-LM (1.2B)|2019|1.6×10^11 个样本 Megatron-LM (8.3B)|2019|4.6×10^10 个样本 ALBERT|2019|3.3×10^9 个样本 Adaptive Inputs + LayerDrop|2019|1.0×10^8 个样本 AlphaX-1|2019|6.1×10^7 个样本 DistilBERT|2019|5.0×10^8 个样本 T5-11B|2019|3.4×10^10 个样本 T5-3B|2019|5.1×10^9 个样本 BART-large|2019|4.3×10^10 个样本 Base LM + kNN LM + Continuous Cache|2019|1.0×10^8 个样本 XLM-RoBERTa|2019|1.7×10^11 个样本 CamemBERT|2019|2.9×10^10 个样本 Noisy Student (L2)|2019|8.1×10^7 个样本 Sandwich Transformer|2019|7.0×10^8 个样本 MoCo|2019|9.4×10^8 个样本 MuZero|2019|1.2×10^10 个样本 Transformer - LibriVox + Decoding/Rescoring|2019|9.8×10^8 个样本 Photo-Geometric Autoencoder|2019|8.2×10^8 个样本 Transformer-XL DeFINE (141M)|2019|1.0×10^8 个样本 StarGAN v2|2019|4.0×10^5 个样本 StyleGAN2|2019|1.1×10^8 个样本 MMLSTM (PTB)|2019|9.3×10^5 个样本 MMLSTM (WT-2)|2019|2.0×10^6 个样本 OpenAI Five|2019|4.5×10^11 个样本 OpenAI Five Rerun|2019|5.3×10^10 个样本 DD-PPO|2019|2.5×10^9 个样本 Big Transfer (BiT-L)|2019|3.0×10^8 个样本 AlphaFold|2020|6.6×10^9 个样本 Meena|2020|5.3×10^10 个样本 Perceiver IO (optical flow)|2020|1.5×10^11 个样本 TaLK Convolution|2020|1.0×10^8 个样本 Theseus 6/768|2020|3.9×10^5 个样本 ALBERT-xxlarge|2020|3.3×10^9 个样本 FFN SwiGLU|2020|5.1×10^10 个样本 SimCLR|2020|1.1×10^10 个样本 Turing-NLG|2020|4.6×10^10 个样本 Feedback Transformer|2020|1.0×10^8 个样本 TCAN (WT2)|2020|2.0×10^6 个样本 Routing Transformer (WT-103)|2020|1.0×10^8 个样本 TransformerXL + spectrum control|2020|1.0×10^8 个样本 Tensor-Transformer(1core)+PN (WT103)|2020|1.0×10^8 个样本 ELECTRA|2020|3.3×10^10 个样本 MetNet|2020|7.1×10^9 个样本 Go-explore|2020|4.0×10^10 个样本 Once for All|2020|1.3×10^6 个样本 ContextNet|2020|3.5×10^8 个样本 Retrieval-Augmented Generator|2020|3.1×10^6 个样本 DETR|2020|8.3×10^5 个样本 GPT-3 175B (davinci)|2020|2.4×10^11 个样本 GShard (dense)|2020|3.5×10^11 个样本 DeLighT|2020|1.0×10^8 个样本 ERNIE-GEN (large)|2020|1.2×10^11 个样本 ProBERTa|2020|5.8×10^7 个样本 LUKE|2020|4.7×10^9 个样本 German ELECTRA Large|2020|3.6×10^10 个样本 mT5-XXL|2020|1.0×10^12 个样本 ViT-Base/32|2020|3.0×10^8 个样本 ViT-Huge/14|2020|3.0×10^8 个样本 wave2vec 2.0 LARGE|2020|4.6×10^9 个样本 KEPLER|2020|3.5×10^9 个样本 AlphaFold 2|2020|5.7×10^9 个样本 CPM-Large|2020|1.7×10^10 个样本 ESM1b|2020|2.8×10^10 个样本 VQGAN + CLIP|2020|2.5×10^11 个样本 CT-MoS (WT2)|2020|2.0×10^6 个样本 DensePhrases|2020|5.8×10^7 个样本 ERNIE-Doc (247M)|2021|1.0×10^8 个样本 CLIP (ResNet-50)|2021|4.0×10^8 个样本 CLIP (ViT L/14@336px)|2021|4.0×10^8 个样本 DALL-E|2021|3.2×10^11 个样本 BigSSL|2021|1.0×10^11 个样本 Switch|2021|8.6×10^10 个样本 DeiT-B|2021|3.8×10^6 个样本 top-down frozen classifier|2021|3.4×10^6 个样本 MSA Transformer|2021|1.4×10^12 个样本 SRU++ Large|2021|1.0×10^8 个样本 Meta Pseudo Labels|2021|1.3×10^8 个样本 Generative BST|2021|5.7×10^10 个样本 M6-T|2021|1.1×10^11 个样本 PLUG|2021|6.0×10^10 个样本 ProtBERT-BFD|2021|5.9×10^10 个样本 ProtT5-XL-U50|2021|2.0×10^10 个样本 ADM|2021|1.3×10^14 个样本 MedBERT|2021|1.5×10^10 个样本 ByT5-XXL|2021|1.1×10^12 个样本 CogView|2021|9.7×10^11 个样本 Transformer local-attention (NesT-B)|2021|1.3×10^6 个样本 ViT-G/14|2021|3.0×10^9 个样本 ALIGN|2021|1.8×10^9 个样本 CoAtNet|2021|8.9×10^13 个样本 DeBERTa|2021|2.1×10^10 个样本 Denoising Diffusion Probabilistic Models (LSUN Bedroom)|2021|6.0×10^11 个样本 EMDR|2021|1.7×10^11 个样本 StyleGAN3-R|2021|5.0×10^7 个样本 StyleGAN3-T|2021|5.0×10^7 个样本 Fold2Seq|2021|4.6×10^4 个样本 Adaptive Input Transformer + RD|2021|1.0×10^8 个样本 Codex|2021|5.3×10^10 个样本 ERNIE 3.0|2021|3.8×10^11 个样本 GOAT|2021|8.0×10^14 个样本 HuBERT|2021|8.6×10^8 个样本 SEER|2021|1.0×10^9 个样本 6-Act Tether|2021|1.3×10^8 个样本 YOLOX-X|2021|2.5×10^6 个样本 Jurassic-1-Jumbo|2021|3.0×10^11 个样本 DNABERT|2021|1.4×10^9 个样本 XLMR-XXL|2021|1.7×10^11 个样本 FLAN 137B|2021|2.5×10^12 个样本 MEB|2021|5.0×10^11 个样本 PermuteFormer|2021|1.0×10^8 个样本 HyperCLOVA 204B|2021|5.6×10^11 个样本 PLATO-XL|2021|1.5×10^11 个样本 AlphaFold-Multimer|2021|5.7×10^7 个样本 Megatron-Turing NLG 530B|2021|2.7×10^11 个样本 Yuan 1.0|2021|1.8×10^11 个样本 base LM+GNN+kNN|2021|1.0×10^8 个样本 Eve|2021|2.4×10^10 个样本 EfficientZero|2021|1.0×10^5 个样本 Projected GAN|2021|3.0×10^6 个样本 S4|2021|1.0×10^8 个样本 ViT-G/14 (LiT)|2021|1.0×10^12 个样本 BASIC-L|2021|8.9×10^12 个样本 Florence|2021|7.5×10^9 个样本 NÜWA|2021|5.6×10^9 个样本 Gopher (280B)|2021|3.0×10^11 个样本 Student of Games|2021|2.5×10^11 个样本 GLaM|2021|6.0×10^11 个样本 LongT5|2021|5.2×10^11 个样本 Contriever|2021|2.6×10^11 个样本 LDM-1.45B|2021|2.9×10^11 个样本 XGLM-7.5B|2021|5.0×10^11 个样本 ERNIE 3.0 Titan|2021|6.7×10^11 个样本 data2vec (language)|2022|1.3×10^11 个样本 data2vec (speech)|2022|1.8×10^7 个样本 data2vec (vision)|2022|2.5×10^8 个样本 OntoProtein|2022|2.9×10^9 个样本 InstructGPT 175B|2022|1.7×10^7 个样本 AlphaCode|2022|9.7×10^11 个样本 RETRO-7B|2022|4.2×10^11 个样本 GPT-NeoX-20B|2022|3.4×10^11 个样本 LaMDA|2022|2.1×10^12 个样本 ProteinBERT|2022|3.8×10^10 个样本 ST-MoE|2022|1.5×10^12 个样本 PolyCoder|2022|3.9×10^10 个样本 DeepNet|2022|2.7×10^11 个样本 Statement Curriculum Learning|2022|3.7×10^11 个样本 ViT-G (model soup)|2022|1.8×10^9 个样本 Make-A-Scene|2022|2.7×10^11 个样本 Segatron-XL large, M=384 + HCP|2022|1.0×10^8 个样本 Chinchilla|2022|1.4×10^12 个样本 PaLM (540B)|2022|7.8×10^11 个样本 DALL·E 2|2022|1.7×10^11 个样本 Sparse all-MLP|2022|1.0×10^11 个样本 Flamingo|2022|4.6×10^11 个样本 OPT-175B|2022|1.8×10^11 个样本 UL2|2022|1.0×10^12 个样本 Gato|2022|5.2×10^11 个样本 SimCSE|2022|2.7×10^7 个样本 GPT-2 Medium (FlashAttention)|2022|1.0×10^10 个样本 Tranception|2022|4.8×10^10 个样本 CogVideo|2022|1.5×10^11 个样本 DITTO|2022|1.0×10^8 个样本 CoCa|2022|1.4×10^12 个样本 MetaLM|2022|6.5×10^11 个样本 Parti|2022|4.7×10^12 个样本 ProGen2-xlarge|2022|3.5×10^11 个样本 Minerva (540B)|2022|2.6×10^10 个样本 CodeT5-large|2022|1.1×10^10 个样本 NLLB|2022|3.0×10^11 个样本 BLOOM-176B|2022|3.8×10^11 个样本 ESM2-15B|2022|1.5×10^10 个样本 OmegaPLM|2022|1.3×10^12 个样本 AlexaTM 20B|2022|1.3×10^12 个样本 GLM-130B|2022|1.5×10^11 个样本 BlenderBot 3|2022|1.3×10^9 个样本 PaLI|2022|1.4×10^11 个样本 Whisper|2022|1.2×10^10 个样本 DiffDock|2022|4.4×10^6 个样本 GenSLM|2022|2.3×10^11 个样本 Flan-PaLM 540B|2022|1.4×10^9 个样本 LMSI-Palm|2022|1.9×10^6 个样本 U-PaLM (540B)|2022|1.3×10^9 个样本 Mogrifier RLSTM (WT2)|2022|2.7×10^6 个样本 eDiff-I|2022|1.6×10^12 个样本 mT0-13B|2022|2.0×10^10 个样本 InternImage|2022|8.4×10^10 个样本 EVA-01|2022|7.6×10^9 个样本 Galactica|2022|1.1×10^11 个样本 Fusion in Encoder|2022|9.6×10^5 个样本 ALM 1.0|2022|2.3×10^10 个样本 DiT-XL/2 + Discriminator Guidance|2022|3.3×10^8 个样本 Discriminator Guidance|2022|3.3×10^8 个样本 DeepNash|2022|2.1×10^12 个样本 Vega v2|2022|6.4×10^9 个样本 CaLM|2022|2.5×10^9 个样本 Hybrid H3-2.7B|2022|4.0×10^11 个样本 VALL-E|2023|7.7×10^10 个样本 DreamerV3|2023|1.6×10^9 个样本 Ankh_large|2023|1.4×10^10 个样本 Nucleotide Transformer|2023|3.0×10^11 个样本 DDPM-IP (CelebA)|2023|8.3×10^8 个样本 BLIP-2 (Q-Former)|2023|2.3×10^9 个样本 ProteinDT|2023|1.3×10^8 个样本 ViT-22B|2023|4.0×10^9 个样本 LLaMA-65B|2023|1.4×10^12 个样本 AudioGen|2023|2.3×10^11 个样本 Falcon-40B|2023|1.0×10^12 个样本 GPT-4 (Jun 2023)|2023|5.4×10^12 个样本 GPT-4 (Mar 2023)|2023|5.4×10^12 个样本 LEP-AD|2023|1.2×10^6 个样本 PanGu-Σ|2023|3.3×10^11 个样本 SigLIP 400M|2023|6.7×10^12 个样本 BloombergGPT|2023|5.7×10^11 个样本 VideoMAE V2|2023|1.2×10^9 个样本 Segment Anything Model|2023|1.1×10^9 个样本 Incoder-6.7B|2023|5.2×10^10 个样本 DINOv2|2023|3.6×10^10 个样本 Agile Soccer Robot|2023|3.1×10^9 个样本 PaLM 2|2023|3.6×10^12 个样本 StarCoder|2023|2.0×10^11 个样本 CoEdiT-xxl|2023|1.1×10^6 个样本 Med-PaLM 2|2023|1.6×10^7 个样本 CodeT5+|2023|5.2×10^10 个样本 ONE-PEACE|2023|4.9×10^11 个样本 Goat-7B|2023|4.4×10^7 个样本 MusicGen|2023|1.4×10^13 个样本 HyenaDNA|2023|3.0×10^9 个样本 InternLM|2023|1.6×10^12 个样本 Pangu-Weather|2023|2.5×10^13 个样本 xTrimoPGLM -100B|2023|2.8×10^11 个样本 Llama 2-70B|2023|2.0×10^12 个样本 Llama 2-7B|2023|2.0×10^12 个样本 AudioLM|2023|1.3×10^11 个样本 Qwen-VL|2023|5.0×10^11 个样本 PeptideBERT|2023|4.2×10^6 个样本 Jais|2023|4.0×10^11 个样本 Swift|2023|1.2×10^8 个样本 Falcon-180B|2023|3.5×10^12 个样本 AlphaMissense|2023|2.3×10^9 个样本 Amazon Titan|2023|4.0×10^12 个样本 Show-1|2023|1.6×10^14 个样本 FinGPT-13B|2023|7.7×10^4 个样本 RoseTTAFold All-Atom (RFAA)|2023|6.3×10^7 个样本 Ferret (13B)|2023|1.7×10^8 个样本 CODEFUSION (Python)|2023|4.4×10^6 个样本 ChatGLM3-6B|2023|1.4×10^12 个样本 Skywork-13B|2023|3.2×10^12 个样本 BLUUMI|2023|3.8×10^10 个样本 Grok-1|2023|6.2×10^12 个样本 Yi-34B|2023|3.1×10^12 个样本 RoFormer|2023|3.3×10^9 个样本 mPLUG-Owl2|2023|1.8×10^11 个样本 Nemotron-3-8B|2023|3.8×10^12 个样本 GNoME for crystal discovery|2023|6.9×10^4 个样本 Qwen-72B|2023|3.0×10^12 个样本 Mamba-24M (SC09)|2023|9.7×10^4 个样本 Llama Guard|2023|4.1×10^6 个样本 VILA-13B|2023|3.2×10^10 个样本 nekomata-14b|2023|6.6×10^10 个样本 Qwen1.5-72B|2024|3.0×10^12 个样本 Aya|2024|1.1×10^12 个样本 Aramco Metabrain AI|2024|7.0×10^12 个样本 DBRX|2024|1.2×10^13 个样本 ReALM|2024|1.3×10^11 个样本 Llama 3-70B|2024|1.5×10^13 个样本 VILA1.5-13B|2024|3.2×10^10 个样本 AlphaFold 3|2024|3.0×10^10 个样本 Yi-Large|2024|3.0×10^12 个样本 GLM-4 (0520)|2024|1.0×10^13 个样本 ALLaM adapted 70B|2024|6.0×10^11 个样本 Qwen2-72B|2024|7.0×10^12 个样本 Nemotron-4 340B|2024|9.0×10^12 个样本 DeepSeek-Coder-V2 236B|2024|3.2×10^12 个样本 ESM3 (98B)|2024|7.7×10^11 个样本 Llama 3.1-405B|2024|1.6×10^13 个样本 AFM-on-device|2024|7.6×10^12 个样本 AFM-server|2024|7.4×10^12 个样本 LLaVA-OV-72B|2024|3.8×10^10 个样本 Table Tennis Agent|2024|2.4×10^9 个样本 Qwen2.5-32B|2024|1.8×10^13 个样本 Qwen2.5-72B|2024|1.8×10^13 个样本 Telechat2-115B|2024|1.0×10^13 个样本 PixelDance|2024|1.1×10^14 个样本 Movie Gen Video|2024|3.4×10^9 个样本 NVLM-D 72B|2024|5.7×10^10 个样本 NVLM-H 72B|2024|1.3×10^11 个样本 NVLM-X 72B|2024|4.6×10^10 个样本 Doubao-pro|2024|8.4×10^12 个样本 Hunyuan-Large|2024|7.0×10^12 个样本 Llama 3.3 70B|2024|1.5×10^13 个样本 EXAONE 3.5 32B|2024|6.5×10^12 个样本 DeepSeek-V3|2024|1.5×10^13 个样本 DeepSeek-R1|2025|1.5×10^13 个样本 Doubao-1.5-pro|2025|9.0×10^12 个样本 Eurus-2-7B-PRIME|2025|8.3×10^5 个样本 Hunyuan-TurboS|2025|1.6×10^13 个样本 EXAONE Deep 32B|2025|1.2×10^10 个样本 DeepSeek-V3 (Mar 2025)|2025|1.5×10^13 个样本 Llama 4 Behemoth (preview)|2025|3.0×10^13 个样本 Llama 4 Maverick|2025|3.0×10^13 个样本 Llama 4 Scout|2025|3.0×10^13 个样本 Pangu Ultra|2025|1.3×10^13 个样本 Qwen3-235B-A22B|2025|3.6×10^13 个样本 Seed1.5-VL|2025|3.0×10^12 个样本 DeepSeek-R1 (May 2025)|2025|1.5×10^13 个样本 EXAONE Path 2.0|2025|1.4×10^5 个样本 Kimi K2|2025|1.6×10^13 个样本 EXAONE 4.0 (32B)|2025|1.4×10^13 个样本 Qwen3-Coder-480B-A35B|2025|7.5×10^12 个样本 Qwen3-235B-A22B (Jul 2025)|2025|3.6×10^13 个样本 Qwen3-235B-A22B-Thinking (Jul 2025)|2025|3.6×10^13 个样本 GLM-4.5|2025|2.3×10^13 个样本 LongCat-Flash|2025|2.3×10^13 个样本 Qwen3-Max|2025|3.6×10^13 个样本 AgentFounder-30B|2025|3.2×10^11 个样本 Qwen3-Omni-30B-A3B|2025|2.0×10^12 个样本 GLM-4.6|2025|2.3×10^13 个样本 Ling-1T|2025|2.0×10^13 个样本 Olmo 3|2025|5.5×10^12 个样本 K-EXAONE|2026|1.1×10^13 个样本 |2026|2.0×10^13 个样本 MiMo-V2.5-Pro|2026|2.7×10^13 个样本 语言 视觉 多领域 其他 生物 游戏 语音 图像生成 机器人 每个点为一个知名 AI 模型,纵轴=训练数据集规模(对数轴,样本 / token 数),按应用领域着色;共 659 个模型。 训练算力纪录:历年刷新前沿的模型 下表为在其发布时刷新「已知最高训练算力」纪录的模型(按算力升序刷新),倒序展示最近 12 个纪录。
数据来源:Epoch AI 「Notable AI models」数据集(CC BY 4.0 ),
经 Our World in Data 整理。原始数据页:
训练算力 ·
参数量 ·
训练数据量 。
数据于 2026-07-01 抓取,慢数据(约年度更新)、定期刷新;各图纵轴均为对数刻度。
本页仅客观呈现已公开数据,不预测、不构成任何投资建议 。