在德国汉堡举行的ISC 2026大会上,一台名为LineShine的中国超级计算机成为全场焦点。它凭借2.198 exaflops的Linpack性能,一举超越此前的冠军El Capitan,空降TOP500榜单首位。国家超级计算深圳中心主任、LineShine首席设计师卢宇彤在专题演讲中披露了这台神秘系统的更多细节,揭示了一条与当前主流加速路线截然不同的技术路径。
LineShine的核心是完全基于LX2 ARM处理器构建的CPU-only集群,没有使用任何GPU或其他加速器。每颗LX2芯片采用chiplet架构,运行频率1.55 GHz,单芯片集成304个ARMv9核心,划分为四个NUMA域,每个域包含38个核心和4 GB高带宽内存(HBM)。系统总共部署了20,480个计算节点,提供近1400万个ARM核心,单芯片FP64算力达到60.3 teraflops。
在互联方面,LineShine采用了中国自研的LingQi网络,采用双平面多轨胖树拓扑,单节点带宽高达1.6 Tb/s,延迟约1微秒。整个系统安装在90个机柜中,每机柜集成512颗CPU,提供30 petaflops的FP64算力,采用380V直流供电,单机柜功耗580千瓦。系统总功耗达到42.2兆瓦,并采用双面冷板实现100%液冷散热。
尽管功耗高于El Capitan的29.7兆瓦,能效比(52.07 Gigaflops/Watt)略逊于后者的60.95 Gigaflops/Watt,但LineShine在多个基准测试中展现了均衡的设计理念。在更贴近真实应用的HPCG基准上,它创下了22.00 Petaflops的新纪录;在混合精度HPL-MxP测试中,也取得了7.92 exaflops的成绩。TOP500组织评价称,其HPL到HPL-MxP仅3.6倍的加速比,恰好印证了这是一套无专用低精度加速器的纯CPU设计。
卢宇彤将LineShine的开发理念概括为ABC原则:应用驱动、平衡架构、全栈协同设计。她强调,这套系统旨在“继承HPC传统,拥抱AI驱动的未来,回归计算加速的本质”。通过将矩阵加速单元直接集成在芯片核心上,大幅减少了数据搬运开销,同时借助可扩展向量扩展(SVE)和可扩展矩阵扩展(SME),使芯片具备了多精度计算能力,既能高效处理传统建模与仿真任务,也能胜任新兴的AI工作负载。
在软件生态上,LineShine运行麒麟操作系统,并构建了统一的HPC与AI软件环境,提供矩阵加速套件以充分利用SME、HBM及DDR内存资源。卢宇彤透露,自2025年底上线以来,该系统已开始在气候模拟、计算流体力学、地震模拟、材料科学、能源、药物设计、神经科学及科学AI等多个领域为中国研究人员提供算力服务。她表示,团队致力于构建一个面向多样化科学与工程应用的生态系统,并欢迎各种形式的国际合作。
LineShine的横空出世,正值全球高性能计算向百亿亿次时代迈进的关键节点。它以纯ARM CPU路线实现登顶,不仅打破了长期以来由GPU加速器主导的超算格局,也向外界展示了在先进制程与加速器获取受限的背景下,通过架构创新与全栈优化依然可以冲击性能巅峰的可能性。对于关注AI基础设施的投资者而言,这一事件凸显了异构计算之外的另一条技术路径正在加速成熟,其对未来数据中心芯片选择、能耗设计以及自主生态建设的长远影响值得持续追踪。