书 · AI 与游戏

游戏是人工智能最古老、也最残酷的舞台。从 64 格的棋盘到 19 路的围棋，从 Atari 像素到《星际争霸》的指挥中枢，每一款游戏都是为机器精心打造的一座斗兽场。在这里，胜负被简化为一个数字，人类的最高水准被量化为一个对手。机器每攻克一座堡垒，"智能"二字的边界就被向后推一寸。

第一幕：棋盘上的童年（1952—1997）

人工智能与游戏的姻缘，几乎与 AI 这门学科本身一样古老。

1952 年，IBM 工程师塞缪尔在一台 IBM 701 上写下了第一版跳棋程序。机器内存仅有几千字节，但他坚信跳棋是验证机器学习思想的理想沙盘。1959 年，他在《IBM Journal》上发表论文 Some Studies in Machine Learning Using the Game of Checkers，首次系统地阐述了"机器学习"（Machine Learning）这一术语——程序通过自我对弈不断更新评估函数，逐步学会识别局面优劣。这是史上第一个会从经验中变强的程序。

跳棋之后，国际象棋成了下一座圣山。从香农在 1950 年发表的奠基论文 Programming a Computer for Playing Chess，到纽厄尔、西蒙与肖合作的 NSS 程序，再到 1970 年代各路高校的搜索引擎竞赛，国际象棋几乎成了 AI 实验室的通用基准。

终局发生在 1997 年 5 月 11 日，纽约 Equitable Center 第 35 层。IBM 的深蓝（Deep Blue）在六局比赛中以 3.5 比 2.5 击败了世界冠军卡斯帕罗夫。深蓝由许峰雄（Hsu Feng-hsiung）领衔的团队打造——他从 1985 年卡内基梅隆大学博士期间的"深思"（Deep Thought）项目开始，将一颗为国际象棋专用的 VLSI 芯片打磨了十多年。1997 年的深蓝搭载 480 块这样的定制芯片，每秒可评估约两亿个局面。卡斯帕罗夫赛后愤怒地指控 IBM 作弊——他无法相信机器能下出第二局那一步看似带有"人类直觉"的弃兵。三十年后回看，那只是暴力搜索的胜利：深蓝并没有"理解"国际象棋，它只是数得比任何人类都更深、更快、更冷静。

一个时代结束了。机器证明了在有限信息、有限规则的封闭博弈里，纯算力可以碾压人类。

第二幕：神经网络回到棋盘（2013—2015）

跳棋与国际象棋之后，围棋静静地等待着。19 × 19 的棋盘上有约 10^170 种可能局面，远超宇宙中原子的数量。暴力搜索在这里无能为力。学界普遍认为，要让机器战胜围棋世界冠军，至少还需要十年。

转机来自一个看似不相关的方向——电子游戏。2013 年，DeepMind 在 NIPS Workshop 上发表了一篇短论文 Playing Atari with Deep Reinforcement Learning。哈萨比斯团队提出深度 Q 网络（Deep Q-Network, DQN），第一次让神经网络仅凭屏幕像素与得分反馈，便学会了 49 款 Atari 2600 游戏。打砖块、太空入侵者、Pong——同一个网络架构在多款游戏中达到甚至超越人类水平。这篇论文 2015 年扩充版登上《自然》封面，被视为深度强化学习（Deep Reinforcement Learning）的奠基之作。

DQN 之所以重要，不在于它打败了 Atari，而在于它向世界宣告了一种全新的可能：把卷积神经网络当作"眼睛"，把强化学习当作"行动指南"，机器可以从零开始，在像素中学到策略。

DeepMind 这个名字此前在学术圈仍属小众。2010 年由哈萨比斯、Shane Legg、Mustafa Suleyman 在伦敦创立，2014 年被 Google 以 4 亿英镑收购。收购前 Atari 演示视频是 DeepMind 打动谷歌的关键素材之一——Larry Page 与布林在伦敦的 demo 室看着 DQN 自学打砖块时，已经看见了下一个十年的形状。

围棋的攻克者，正在这条路上孕育。

第三幕：AlphaGo 之夜（2016 年 3 月）

2015 年 10 月，DeepMind 在伦敦秘密举办了一场比赛：AlphaGo 5 比 0 击败欧洲围棋冠军樊麾（Fan Hui）。这场比赛的论文 2016 年 1 月登上《自然》，西尔弗为第一作者，哈萨比斯领衔。AlphaGo 的架构融合了三件武器——策略网络（Policy Network）预测人类高手的下法、价值网络（Value Network）评估当前局面胜率、蒙特卡洛树搜索（MCTS）将两者整合并展开搜索。

樊麾局之后，外界仍存怀疑。围棋职业九段们普遍认为，AlphaGo 距离顶级棋手仍有差距。

2016 年 3 月 9 日，首尔四季酒店。AlphaGo 与韩国九段李世石的五局对决开始。第二局第 37 手，AlphaGo 在第五线点了一手"肩冲"，转播间的解说短暂失语——这一步在职业棋手的训练中几乎不会被考虑，胜率直觉判断为劣着。但棋局推演下去，所有人才意识到这是天外飞仙般的妙手。围棋世界陷入震惊：机器不仅在算棋，它似乎在"理解"棋。

最终比分 4 比 1，AlphaGo 取胜。李世石赢下的那一局——第四局第 78 手"神之一手"——后来成为人类对抗机器历史上的悲壮符号。一年后，AlphaGo Master 在网络上 60 连胜中外顶尖棋手；2017 年 5 月，AlphaGo 在乌镇 3 比 0 击败世界第一柯洁，赛后柯洁掩面流泪。DeepMind 随即宣布 AlphaGo 退役。

紧接着登场的是 AlphaGo Zero（2017 年 10 月）——它完全抛弃人类棋谱，仅靠自我对弈，从随机权重出发，72 小时即超越战胜李世石的版本。再之后是 AlphaZero（2017 年 12 月），同一套算法用 4 小时学会国际象棋、2 小时学会日本将棋，全部碾压顶级专用引擎。2019 年 12 月的 MuZero 更进一步，连游戏规则都不需要预先告知，仅凭交互即可学会下棋与玩 Atari。

围棋这块横亘在 AI 面前两千年的巨石，三年内被劈成了碎片。这场胜利对人类围棋本身亦有反向馈赠：柯洁、井山裕太、申真谞等顶级棋手公开承认，AlphaGo 改变了他们对开局与定式的理解。AI 的"妙手"被职业棋谱悄悄吸收，整个围棋世界的水准在此后五年被推上了新台阶。

第四幕：实时战略与不完全信息（2017—2019）

棋类已破，AI 把目光转向了一个更复杂的领域：实时战略游戏（RTS）。

《星际争霸 II》的难度远超围棋——动作空间近乎连续、信息部分可见、需要长时间的战略规划。2019 年 1 月，DeepMind 发布 AlphaStar。它先用人类对局做模仿学习，再通过"联盟训练"（League Training）让多个智能体相互博弈、互为对手。当年 12 月，AlphaStar 在 Battle.net 上以匿名身份达到欧洲服务器排名前 0.2% 的宗师级别。

OpenAI 则把战场押在了《Dota 2》。2017 年的 SoloMid 1v1 项目击败顶级选手 Dendi 之后，OpenAI Five 在 2018 年 The International 8 上首次公开亮相，2019 年 4 月在公开赛中击败世界冠军战队 OG，比分 2 比 0。这一结果让游戏 AI 真正走出了实验室——OpenAI 团队透露，OpenAI Five 在训练中累计经历了相当于 4.5 万年的游戏时间。

更深刻的突破发生在扑克桌上。扑克是不完全信息博弈：你看不到对手的手牌，对方的下注本身就是策略的一部分。2017 年 1 月，卡内基梅隆大学 Tuomas Sandholm 与布朗的 Libratus 在匹兹堡 Rivers Casino 与四名顶级德州扑克职业选手鏖战二十天，累计十二万局，最终赢下约 176 万美元筹码。2019 年 7 月，他们的 Pluribus 进一步攻克了六人桌德扑——这是博弈论上最难的多人不完全信息场景之一，论文以 Superhuman AI for multiplayer poker 为题登上《Science》。

至此，"棋类——电竞——扑克"的三连击告诉世界：完全信息、不完全信息、长程规划，AI 都能跨过。Meta AI 在 2022 年发布的 CICERO 进一步把战火烧到了《Diplomacy》——一个混合自然语言谈判与战略决策的游戏。CICERO 在线匿名比赛中跻身人类玩家前 10%，并能用自然语言与人类盟友谈判结盟、背叛、瓜分领地。语言、谈判、欺骗——这些过去被视为"人类专属"的社交技能，第一次被纳入 AI 的能力清单。

第五幕：游戏世界变成训练场

游戏对 AI 的意义，不止于"打败人类"。

更深层的角色，是把游戏变成训练通用智能的廉价沙盒。OpenAI Gym（2016）、DeepMind Lab（2016）、Unity ML-Agents（2018）、ProcGen Benchmark（2019）——一系列开源平台让强化学习的研究门槛大幅降低。Atari 100k 这样的小样本基准，倒逼研究者去关心样本效率而非纯算力。

2023 年，DeepMind 的 DreamerV3 在 Minecraft 中无需课程学习，从零开始学会了"采集钻石"这一在过去被视为强化学习圣杯的任务。2024 年 2 月，DeepMind 进一步发布 Genie——一个从无标注互联网视频中训练出来的"基础世界模型"（Foundation World Model），能够把一张静态图像转化为可由动作控制的 2D 游戏环境。Genie 不再只是"玩游戏"的 AI，而是一个会"生成游戏"的 AI。同年的 GameNGen 则展示了用扩散模型实时模拟《Doom》的可能：神经网络代替了游戏引擎本身。

游戏与 AI 的关系正在反转。过去，研究者把游戏当作 AI 的考场；今天，游戏正在变成 AI 的画布。

第六幕：NPC 的灵魂（2023—2026）

ChatGPT 之后，游戏内的非玩家角色（NPC）迎来了第二次生命。

传统 NPC 是有限状态机：玩家踩到触发器，NPC 念出预录的台词；剧情分支由设计师手工编排，每一句对白都有人写。Inworld AI（2021 年成立）把大语言模型嵌入 NPC 的"灵魂"中，让角色拥有持久记忆、性格设定与情感反应。Character.AI 则让数千万用户在浏览器里与"虚构人物"日复一日地聊天，2024 年其创始人重新加入 Google DeepMind，公司估值数十亿美元。

2024 年 GDC 上，育碧（Ubisoft）展示了其 NEO NPC 原型：玩家可以用自然语言与 NPC 对话，NPC 的回答由 LLM 实时生成，但被严格限制在角色背景之内。Nvidia 的 ACE 平台则提供了一整套从语音识别到面部动画的"NPC 后端"，并把推理延迟压到 100 毫秒级别——这是让对话感"自然"的物理底线。

研究层面，斯坦福大学 Joon Sung Park 等人在 2023 年的"生成式智能体"（Generative Agents）实验中，让 25 个 LLM 驱动的小镇居民在虚拟环境里自发地组织生日派对、跨日记忆彼此关系。这一实验被广泛认为是"开放世界 NPC"的研究原型。

但 LLM 驱动 NPC 也带来了新问题：幻觉、出戏、内容审核。一个会"自由发挥"的 NPC，可能在直播中说出令厂商窒息的台词。如何让 LLM 既"活"又"听话"，成为 2025—2026 年游戏 AI 最热门的工程课题。

第七幕：生成式游戏内容（PCG 的新春天）

程序化生成（Procedural Content Generation, PCG）并不是新词。《我的世界》（Minecraft）、《无人深空》（No Man's Sky）早已用算法生成出无穷的星球与地形。但生成式 AI 给 PCG 带来了质变。

地图、关卡、剧情、角色、贴图、音效——每一个原本需要美术或策划手工打磨的环节，都开始有 AI 工具介入。2024—2025 年的趋势是：

角色与动作：腾讯、米哈游公开演示用扩散模型生成可绑定骨架的角色立绘与动作序列。
关卡：MIT 与 Riot Games 合作的研究展示了基于 LLM 的关卡设计辅助。
实时世界：DeepMind 的 Genie 2（2024 年 12 月）从一张图像即可生成可交互三维世界，时长达一分钟。
玩法循环：早期实验者尝试让 LLM 在游戏运行时动态生成任务与对白。

业界由此分裂为两派。乐观派认为，AI 让独立开发者也能造出 3A 级别的世界；怀疑派则担心，PCG 会让游戏沦为永远不会"完成"的内容流，玩家被困在一个由算法无穷喂养的回音壁里。

第八幕：版权、就业与抵抗

2024 年 7 月 26 日，美国 SAG-AFTRA 工会对十家电子游戏公司（包括动视暴雪、艺电、迪士尼互动）发起罢工，核心议题之一就是 AI 对配音演员的替代。罢工持续到 2025 年中仍未完全解决，许多游戏公司被迫调整声优合同条款，加入"明确许可方可用 AI 训练或克隆"的保护性语言。日本声优工会也在同年组建了反 AI 联盟。

更早一些，2023 年育碧、SEGA、Take-Two 等公司因在内部使用生成式 AI 工具被员工与外界质询：训练数据从哪儿来？侵权风险谁承担？被替代的美术、关卡设计师将何去何从？

2024 年下半年，多家上市游戏公司在投资者电话会议中将"生成式 AI 应用率"作为关键 KPI；与此同时，独立游戏开发者社区却在呼吁"零 AI"标签，玩家也开始用 Steam 评论抵制疑似 AI 生成的内容。游戏业站在一个尴尬的十字路口：成本压力推动它拥抱 AI，舆论与文化保守主义又将它拉回手工的时代。

游戏曾是 AI 最纯粹的舞台。如今，它正在变成 AI 与人类如何共处的第一个真实战场。

尾声：游戏胜利能否等于通用智能？

最后一个问题留给思想史。

每当 AI 攻克一款游戏，"通用人工智能（AGI）"的预言便会在媒体上飞涨一轮。但研究者内部的认识更为审慎。游戏是被定义良好的环境：规则封闭、目标可量化、状态完全或部分可观察。现实世界与之相反——目标模糊、规则随时变化、对手未必理性。AlphaZero 不会洗碗，AlphaStar 不懂安抚一个生气的玩家，OpenAI Five 在 Dota 之外从未被指望会下棋。

游戏 AI 的胜利，证明了"在受限环境中超越人类"是可达成的工程目标，但并未自动解开通用智能的难题。这一区分在 2024 年大语言模型登场后被进一步放大——LLM 在开放语言任务上的表现，反而比 AlphaZero 在围棋上的表现更接近"通用"。游戏作为 AI 的最初战场已经基本完成它的历史使命；下一个考验的舞台，是更模糊、更复杂、与人类生活贴得更近的现实世界。

太史公曰

余观 AI 与游戏八十年因缘，叹其相辅相成，又互为镜鉴。塞缪尔之跳棋程序，开"机器学习"之名；深蓝之于卡斯帕罗夫，证暴力搜索可摧人类直觉；AlphaGo 之第二局第 37 手，则使举世明白：神经网络已能在围棋这等"东方艺术"上窥见人之未见。游戏之所以为 AI 试金石，因其规则清晰、目标可量化、对局可万亿次重复——此皆现实世界之所稀缺。然胜局亦藏陷阱：能在围棋上不败者，未必能在街市上买菜；能在《星际》上指挥千军者，未必懂得安抚一名愤怒的玩家。智能之边界，远不止于胜负二字。今日生成式 AI 反向冲击游戏产业，配音演员罢工、独立开发者抵制、巨头将"AI 渗透率"列为 KPI，皆是技术外溢于伦理与就业之必然。游戏自最早一日便是 AI 之舞台，今后亦将是 AI 与人类如何分工、如何共生的最直接实验场。胜负易见，分寸难拿——此后之难题，胜过任何一盘棋局。

亲历者说

征集中

如果你参与过游戏 AI 的研究、开发或对局，欢迎提交贡献。

参考资料

Samuel, A. L. (1959). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 3(3), 210-229.
Campbell, M., Hoane, A. J., & Hsu, F. H. (2002). Deep Blue. Artificial Intelligence, 134(1-2), 57-83.
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
Silver, D., Huang, A., Maddison, C. J., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Silver, D., Schrittwieser, J., Simonyan, K., et al. (2017). Mastering the game of Go without human knowledge. Nature, 550(7676), 354-359.
Silver, D., Hubert, T., Schrittwieser, J., et al. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419), 1140-1144.
Schrittwieser, J., Antonoglou, I., Hubert, T., et al. (2020). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588(7839), 604-609.
Vinyals, O., Babuschkin, I., Czarnecki, W. M., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Berner, C., Brockman, G., Chan, B., et al. (2019). Dota 2 with large scale deep reinforcement learning. arXiv preprint arXiv:1912.06680.
Brown, N., & Sandholm, T. (2018). Superhuman AI for heads-up no-limit poker: Libratus beats top professionals. Science, 359(6374), 418-424.
Brown, N., & Sandholm, T. (2019). Superhuman AI for multiplayer poker. Science, 365(6456), 885-890.
Bruce, J., Dennis, M. D., Edwards, A., et al. (2024). Genie: Generative Interactive Environments. Proceedings of ICML 2024.
Hafner, D., Pasukonis, J., Ba, J., & Lillicrap, T. (2023). Mastering diverse domains through world models (DreamerV3). arXiv preprint arXiv:2301.04104.

书 · AI 与游戏 ​

第一幕：棋盘上的童年（1952—1997） ​

第二幕：神经网络回到棋盘（2013—2015） ​

第三幕：AlphaGo 之夜（2016 年 3 月） ​

第四幕：实时战略与不完全信息（2017—2019） ​

第五幕：游戏世界变成训练场 ​

第六幕：NPC 的灵魂（2023—2026） ​

第七幕：生成式游戏内容（PCG 的新春天） ​

第八幕：版权、就业与抵抗 ​

尾声：游戏胜利能否等于通用智能？ ​

亲历者说 ​

参考资料 ​