书 · AI 硬件与算力
没有硬件的进化,就没有深度学习的革命。从 CPU 到 GPU 到 TPU,从单卡训练到 10 万卡超级集群,从硅谷到东数西算,算力是人工智能进步最容易被忽视、却最难以替代的关键变量。算法是聚光灯下的主角,但真正决定时代节奏的,是埋在地下与山洞里的电缆、变压器和服务器机架。
一、芯片演进:从串行的瓶颈到并行的解放
故事的起点是一个被低估的限制:CPU 是为串行而生的。中央处理器(Central Processing Unit)的核心被设计成尽可能快地执行一连串指令,缓存层次复杂、分支预测精巧——但其浮点运算的并行度极其有限。神经网络的训练却几乎是反向需求:海量矩阵乘法、相同操作在不同数据上重复执行。
转机来自一个完全不相关的行业——电子游戏。1990 年代末,NVIDIA 与 ATI 为渲染 3D 图形而设计的图形处理器(Graphics Processing Unit, GPU)天然包含成百上千个并行流处理器。2007 年,黄仁勋领导的 NVIDIA 推出 CUDA(Compute Unified Device Architecture),让开发者可以直接用类 C 语法在 GPU 上跑通用计算。这一举把 GPU 从"只懂渲染"的图形卡,变成了科学计算的廉价超算节点。
第一批吃螃蟹的人是机器学习研究者。2009 年,斯坦福吴恩达团队在 ICML 上发表论文,证明 GPU 训练深度网络比 CPU 快 70 倍。2012 年 10 月,克里热夫斯基在两块 NVIDIA GTX 580 上训练出 AlexNet,将 ImageNet Top-5 错误率从 26.2% 砍到 16.4%。那一天起,GPU 与深度学习的命运被永远绑定。
2016 年,Google 公开 TPU(Tensor Processing Unit)——一块为机器学习推理量身定制的 ASIC。第一代 TPU 在 AlphaGo 与李世石对决中默默发力,第二代起开始训练用途;至 2024 年的 TPU v5p 与 v6(Trillium),每一代都在追逐"性能/瓦特/美元"三角的极限。
NVIDIA 仍是这场游戏的最大赢家。2020 年的 A100 重定义了大模型训练的标准;2022 年的 H100 引入 Transformer Engine 与 FP8 精度,几乎独占了 GPT-4 与 LLaMA 时代的训练算力;2024 年的 Blackwell 架构(B200、GB200 NVL72)把单机柜算力推向 1.4 EFLOPS。NVIDIA 市值在 2024 年 6 月首次突破 3 万亿美元,年中一度超越苹果与微软,成为全球第一。
挑战者从未停歇。Cerebras 把整片 12 寸晶圆做成一颗"WSE"超大芯片,4 万亿晶体管,主打不需切片的连续计算。Groq 走另一条路:抛弃 HBM 改用片上 SRAM,专攻推理的极致时延。AMD 在 2023 年发布 MI300X,正面对抗 H100。Intel 的 Gaudi 系列、英国 Graphcore 的 IPU、以色列 Habana 都在争夺 NVIDIA 难以兼顾的细分场景。中国厂商也已成阵:华为昇腾 910B/910C、寒武纪思元、百度昆仑芯、摩尔线程 MTT S4000——尽管制程被锁在 7 nm 一代,仍在国内训练市场迅速放量。
二、数据中心:从云计算到 AI 工厂
数据中心的形态正在被 AI 重塑。
过去十年,"云"是一种通用资源池,CPU 服务器叠满楼层,主要业务是网站、数据库、视频转码。GPT-3 之后,巨头们开始为大模型训练单独造楼——选址优先看输电容量与气候,机柜密度从 10 kW 飙升到 100 kW 以上,液冷取代风冷成为新标配。黄仁勋在 2024 年 GTC 主题演讲中创造了一个新词:"AI 工厂(AI Factory)"——把 token 当作产成品,把电力与 GPU 当作原料。
竞赛随即进入"百万卡时代"的前奏。
- xAI Colossus(孟菲斯,2024 年 7 月):马斯克团队在 122 天内建成 10 万张 H100 的训练集群,是史上最快投产的大型 AI 集群。2025 年初宣布扩展到 20 万卡,目标百万卡。
- Microsoft × OpenAI Stargate(2025 年 1 月公布):四年内投入 5,000 亿美元建设新一代 AI 基础设施,首站位于德州 Abilene。
- Meta 自建集群:2024 年公开两套各 24,576 张 H100 的训练集群,并宣布 2024 年底前部署等价 60 万张 H100 的算力。
- Google:2024 年起在新建的 Hyperion 园区将 TPU v5p 集群规模推至 8,960 颗一组。
中国的"东数西算"工程则给出另一条路径——把电力富裕、气候适宜的西部地区(贵州、内蒙古、宁夏、甘肃、宁夏、四川)建成八大算力枢纽,与东部需求侧通过国家骨干网络打通。这是一项国家级规划:把算力当电力网来调度。
谁拥有算力,谁就拥有大模型时代的话语权——这一判断已不再需要论证。
三、算力经济学:从研究项目到军备开支
成本曲线是这个时代最惊人的曲线之一。
- GPT-3(2020)训练成本估算约 460 万美元;
- GPT-4(2023)约 6,000 万至 1 亿美元;
- 公开报道中,前沿训练任务在 2024 年已频频突破 5 亿美元上限;
- 业界对 GPT-5 / Gemini 3 / Claude 4 之类下一代模型的内部估算,单次训练已迈向 10 亿美元量级。
但训练只是冰山一角。模型一旦部署,推理(Inference)的边际成本会被亿万次调用放大。Sam Altman 多次公开承认,OpenAI 的推理支出已超过训练。NVIDIA 的财报里,Hopper 架构的 H100/H200 已不再只是训练芯片,更多用于部署侧;Groq、SambaNova、Tenstorrent、CerebrasInference 等推理专精厂商崛起,押注的正是这一长尾。
DeepSeek 在 2024 年底至 2025 年初的崛起,第一次向行业泼了一盆冷水。DeepSeek-V3 公开宣称训练成本约 558 万美元,DeepSeek-R1 用强化学习实现接近 GPT-o1 的推理能力——这两个数字让 NVIDIA 当日股价一度暴跌 17%,市值蒸发约 6,000 亿美元。"算力即一切"的信仰第一次被严肃质疑:稀疏化(Sparsity)、量化(Quantization)、专家混合(Mixture of Experts, MoE)、知识蒸馏(Distillation)等"软"技术的杠杆,可能比再多 10 万张 H100 更具决定性。
但这并不意味着算力竞赛结束。OpenAI、xAI、Anthropic 都在 2025 年宣布更激进的算力扩张计划。一个朴素的判断是:算法效率的红利会被立即用于训练更大的模型——节省下来的算力不会闲置,只会被吞噬到下一个数量级的实验里。
四、能耗与环境:电力成为新的瓶颈
最先察觉到 AI 真正瓶颈的不是芯片厂,而是电力公司。
国际能源署(IEA)2024 年报告估计,全球数据中心用电量将从 2022 年的 460 TWh 翻倍到 2026 年的 800–1,000 TWh,约等于日本全国年用电量。Goldman Sachs 在同年的报告中警告,美国电网在未来五年需新增 47 GW 数据中心专用电力——相当于在每个州都建一座大型电厂。
电力短缺催生了核能的复兴。
- 2024 年 9 月,Microsoft 与 Constellation Energy 签下 20 年购电协议,重启 1979 年因事故关闭的三里岛核电站 1 号机组(更名 Crane Clean Energy Center),全部电力供给微软的 AI 数据中心。
- 同年 10 月,Google 与 Kairos Power 签约采购小型模块化反应堆(SMR)的电力,目标 2030 年前部署。
- Amazon 收购了 Talen Energy 旗下的核电站附建数据中心。
- OpenAI 投资的核聚变公司 Helion 与 Microsoft 签署了 2028 年开始供电的协议。
冷却技术也在被改写。液冷与浸没冷却(Immersion Cooling)成为 100 kW/机柜以上密度的必选项。NVIDIA Blackwell 系列已默认采用直接到芯片的液冷管路(Direct-to-Chip Liquid Cooling),传统风冷逐渐退出训练数据中心。
可持续 AI 是一场效率提升与规模扩张的赛跑——算法变高效一倍,模型规模就被翻一番,碳足迹的总量曲线仍在向上。这是 AI 时代最尴尬的伦理悖论之一。
五、芯片禁令与算力地缘政治
2022 年 10 月 7 日,美国商务部工业与安全局(BIS)发布对华先进半导体出口管制新规,首次将先进 AI GPU(性能阈值大致围绕 H100)纳入限制。这一日是地缘政治史上的重要一夜——它标志着 AI 算力正式被列入"两用物项"。
NVIDIA 迅速为中国市场推出"特供版"H800、A800(核心阉割了高速互连),勉强维持出货。2023 年 10 月,BIS 加严规则,将 H800、A800、L40S 也纳入限制;NVIDIA 又推出更弱的 H20、L20。2024 年 12 月,BIS 又加码出口管制——围绕 HBM 内存、先进光刻机、设计工具,几乎覆盖了 AI 算力的全产业链。2025 年 4 月,H20 也被纳入逐案审批。
中国的应对呈现两条路径。
- 国产替代加速:华为昇腾 910B/910C 在 DeepSeek、阿里、字节、百度的训练任务中规模化部署;中芯国际(SMIC)量产 7 nm 工艺。
- 架构与软件创新:通过 MoE、低精度训练、跨集群弹性调度,在每一张可用卡的有效产出上做最大努力。DeepSeek-V3 与 R1 的成功被视为这一路径的首个标志性成果。
"算力铁幕"是越来越多人开始使用的词。它指的不只是硬件被切断,而是整个软件栈、模型权重、人才流动正在沿地缘界限被重新组织。同样的变化在欧盟、印度、海湾国家以不同方式上演——每个区域大国都在追问同一个问题:本国 AI 主权依赖于谁?
六、马斯克的算力版图
马斯克在算力赛道上的进入方式与所有人不同——他不是一个 AI 公司创始人去采购算力,他是一个产业资本家在拼接一条全栈链路。xAI 在 2023 年 7 月成立。一年后,孟菲斯郊外的 Colossus 集群上线,10 万张 H100 仅用 122 天完成部署,刷新了大型 AI 数据中心的建设速度纪录。2024 年底 Grok 3 发布时,背后正是这套设施。马斯克的下一步是"百万卡集群",并罕见地与 OpenAI 直接竞争同一类电力与场地资源。
更深的图景是马斯克跨公司的"垂直整合":
- 算力:xAI Colossus + 收购 Tesla 富余 GPU;
- 芯片:Tesla Dojo(D1 芯片,专攻自动驾驶视频训练);
- 数据:Tesla 全球数百万辆车与 Optimus 机器人、X(前 Twitter)平台的实时社交数据流;
- 网络:Starlink 提供低延时的全球骨干,把"边缘 AI + 自动驾驶 + 机器人"统一在一张星座网下;
- 终端:Tesla Cybercab、Optimus、Neuralink。
是否成功是另一回事。但这一垂直整合的样板,正在被更多巨头悄悄学习——黄仁勋在 GTC 2024 上谈到 NVIDIA 的"全栈愿景"时,所引用的逻辑与马斯克并无二致。
七、未来:物理定律的尽头
晶体管已逼近 1 nm 制程的物理边界。摩尔定律(Moore's Law)以纯硅工艺为基础的版本,正在熄火。下一阶段的算力红利从哪里来?
- 量子计算:2019 年 Google 宣称"量子优越性",2024 年 12 月发布 Willow 量子芯片;IBM、本源量子、中国"九章"系列在小规模任务上展示加速。但对深度学习训练这种通用任务而言,量子优势仍在论证阶段。
- 光子计算:Lightmatter、Lightelligence、PsiQuantum 等公司用光波导执行矩阵乘法,能耗仅为电子计算的几十分之一。2024 年 Lightmatter 宣布 4 亿美元 D 轮融资,估值 44 亿美元。
- 类脑芯片:Intel Loihi 2、IBM NorthPole 用脉冲神经网络(Spiking Neural Networks)模拟生物神经元,主打超低功耗推理。
- 存内计算:Mythic、Sambanova、清华大学吴华强团队的 RRAM 阵列,把矩阵乘法直接做在存储单元里,绕过冯·诺依曼瓶颈(冯·诺伊曼Bottleneck)。
- Chiplet 与 3D 堆叠:当单片硅的物理极限到来,把多个小芯片用先进封装(CoWoS、SoIC)连成"超级芯片"成为新的 Moore's Law。
最终的追问指向物理本身:单位能量下能进行多少次浮点运算?这是 Landauer 极限给出的硬天花板。在那之前,每一代硬件突破——无论 GPU、TPU、光子还是量子——都是在为同一个目标服务:让 AI 的训练与推理脱离能源与电网的桎梏。
算力之争,归根到底是能量之争。
太史公曰
余观 AI 算力八十年,悟其势如江河——上游源远,中段汇流,下游则奔涌入海。CPU 时代之串行运算,似涓涓溪水;GPU 之并行架构,乃汪洋潮涌;至于今日万卡集群,则如大江大河,电力为水,硅片为帆。NVIDIA 一夜冠绝全球,其势岂止运气?黄仁勋之远见,在二十年前便押注 CUDA 生态——彼时无 AI 之名,已有并行之实。Google TPU 自有其雄心,xAI Colossus 一百二十二日成军,皆显巨头对算力之执念。然 DeepSeek 一夜震荡,又证算力非万能:算法效率与软件创新,仍可在硬件被锁时杀出血路。芯片禁令、东数西算、核电复兴、量子前夜——这些看似互不相关的新闻,实则同源:算力已是国之重器,其紧要程度堪比石油与电网。未来之 AI 竞争,半在算法,半在能源;半在芯片,半在外交。算力即权力,已非戏言,而是这个时代最坚硬的现实。
亲历者说
征集中
如果你参与过 AI 芯片设计、数据中心建设或算力调度,欢迎提交贡献。
参考资料
- Raina, R., Madhavan, A., & Ng, A. Y. (2009). Large-scale deep unsupervised learning using graphics processors. Proceedings of ICML 2009, 873-880.
- Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25.
- Jouppi, N. P., Young, C., Patil, N., et al. (2017). In-datacenter performance analysis of a tensor processing unit. Proceedings of ISCA 2017, 1-12.
- NVIDIA (2022). NVIDIA H100 Tensor Core GPU Architecture White Paper.
- NVIDIA (2024). NVIDIA Blackwell Architecture Technical Brief.
- Sevilla, J., Heim, L., Ho, A., et al. (2022). Compute trends across three eras of machine learning. Proceedings of IJCNN 2022.
- Patterson, D., Gonzalez, J., Le, Q., et al. (2021). Carbon emissions and large neural network training. arXiv preprint arXiv:2104.10350.
- International Energy Agency (2024). Electricity 2024: Analysis and forecast to 2026.
- U.S. Department of Commerce, Bureau of Industry and Security (2022, October 7). Implementation of additional export controls: Certain advanced computing and semiconductor manufacturing items. Federal Register, 87 FR 62186.
- DeepSeek-AI (2024). DeepSeek-V3 technical report. arXiv preprint arXiv:2412.19437.
- DeepSeek-AI (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.
- Microsoft & Constellation Energy (2024, September 20). Joint announcement: Three Mile Island Unit 1 restart agreement.

