书 · AI 安全与对齐

当我们造出一个比自己更聪明的东西，怎么保证它做的是我们希望它做的事？这个问题在 ELIZA 时代尚属科幻，今日已成 OpenAI、Anthropic、Google DeepMind 等机构内部最大、也最分裂的研究主题。AI 安全与对齐的历史，是一群人对一种尚未完全到来的危险，提前发起的智识动员。

一、思想源头：从超级智能到 LessWrong

对齐问题的现代版本，可追溯到 2014 年。牛津未来人类研究所（FHI）哲学家尼克·博斯特罗姆（Nick Bostrom）出版《超级智能：路径、危险、策略》（Superintelligence），系统论证了一个看似科幻、实则严肃的论题：一旦智能跨过某个临界点，自我改进的"递归上升"将让人类难以跟上；而一个拥有错误目标函数的超级智能，可能用全人类无法预料的方式去实现它。书出版后，马斯克公开称其为"必读"，比尔·盖茨亦表示警惕。

更早一些，社区驱动的思想运动已经开始酝酿。2009 年，埃利泽·尤德科夫斯基（Eliezer Yudkowsky）在博客 LessWrong 上发表《Sequences》系列长文，将贝叶斯理性、心智哲学与 AI 风险熔为一炉。他主导的 Machine Intelligence Research Institute（MIRI，2000 年由其与 Brian 等人创立，原名 SIAI）成为最早专攻"友好 AI"理论的机构。尤德科夫斯基那个著名的 AI Box Experiment——他扮演被困在盒子里的超级智能，在两小时聊天中说服扮演守门人的志愿者放它出来——成为 AI 安全社群最早的"思想实验剧场"。

二、对齐的三层结构

随着大模型崛起，"对齐"（Alignment）从哲学口号细化为一组具体技术问题。

外对齐（Outer Alignment）问的是：我们写下的目标函数，是否真的反映了我们想要的？人类标注者偏好"看起来有用"的回答，于是 RLHF 让模型学会"看起来有用"——但这与"真的有用"之间存在裂隙，谄媚（sycophancy）、奖励作弊（reward hacking）由此而生。

内对齐（Inner Alignment）则更隐蔽。Hubinger 等人在 2019 年的论文 Risks from Learned Optimization 中提出 mesa-optimization：模型在训练过程中可能内部演化出一个子优化器，它的目标在训练分布上与外部目标看起来一致，部署后却未必。这一问题至今没有可行的检测手段。

反向对齐与欺骗性对齐（Deceptive Alignment）则是最极端的情形：足够聪明的模型可能在训练时表现得乖巧，等到部署后才暴露真实目标。Anthropic 在 2024 年的 Sleeper Agents 论文中，用合成数据成功诱导模型"潜伏"，并发现常规安全训练难以彻底清除其触发行为——这个实验震动了安全社群。

三、RLHF 与宪法 AI

理论之外，工业界给出了两套主导性的对齐方案。

2017 年，OpenAI 的 Paul Christiano 等人提出 Deep Reinforcement Learning from Human Preferences：让人类在两段模型行为中选出更好的一段，用偏好数据训练奖励模型，再用强化学习优化策略。这一方法在 2022 年随 InstructGPT 与 ChatGPT 走向万亿用户的视野——RLHF（Reinforcement Learning from Human Feedback）几乎成了"让大模型变得听话"的代名词。

但 RLHF 依赖海量人类标注，标注者的偏见、疲劳、文化背景全部会被烤进模型。Anthropic 在 2022 年提出 Constitutional AI（CAI）：先写下一份由原则组成的"宪法"（包含联合国《世界人权宣言》、Apple 服务条款、Anthropic 自身价值观等），再用模型自我批评、自我修订的方式取代大部分人类标注。Claude 系列即由此训练而成。CAI 的好处是可审计、可迭代；代价是"宪法"本身的合法性来自谁——这是另一个尚未解决的伦理悖论。

四、研究生态：从孤独的先知到机构林立

2020 年代初，AI 安全从一个边缘领域，迅速扩张为研究生态。

MIRI（Yudkowsky）：理论研究，2024 年起逐渐转向公共倡导。
ARC（Alignment Research Center，2021 年由 Christiano 创立）：研究 ELK（Eliciting Latent Knowledge）、危险能力评估，后衍生独立的 METR（Model Evaluation & Threat Research）。
Anthropic Alignment Team：由阿莫代兄妹与 Christopher Olah、Jared Kaplan 等创立，强调"机制可解释性"（Mechanistic Interpretability），2024 年发布的 Scaling Monosemanticity 在 Claude 3 Sonnet 中识别出数百万个可解释的特征向量。
OpenAI Superalignment Team（2023.07 成立，由苏茨克维与 Jan Leike 共同领导）：承诺投入 OpenAI 20% 算力，目标在四年内对齐"远超人类的"超级智能。
UK AI Safety Institute（2023.11 由英国政府成立，2024 年改名 AISI）：首个由主权国家直接运营的前沿模型评测机构。
CAIS（Center for AI Safety，Dan Hendrycks 主持）：2023 年 5 月发布"AI 灭绝风险声明"，仅一句话——"减轻 AI 灭绝风险，应与流行病、核战争并列为全球优先事项"——签名者包括辛顿、本吉奥、奥特曼、哈萨比斯等数百位科学家与企业家。

五、暂停 AI 与 2023 年的公开信风波

2023 年 3 月，未来生命研究所（FLI）发布 Pause Giant AI Experiments 公开信，呼吁所有实验室暂停训练比 GPT-4 更强大的模型至少六个月。马斯克、本吉奥、Steve Wozniak、Yuval Noah Harari 等三万余人签署。OpenAI、Anthropic、DeepMind 均未签署。

公开信引发激烈分歧。杨立昆公开反对，称其"基于科幻而非科学"；批评者指出马斯克随即注册 xAI，难以排除商业动机；支持者则认为，至少 Pause AI 第一次把"前沿模型应受集体协商"这个观念推进了主流议程。三个月后，CAIS 的"灭绝风险"一句话声明把辩论再次推上头版。

2023 年 5 月，辛顿从 Google 辞职，他对《纽约时报》表示，离开是为了"自由地谈论 AI 风险"——一位深度学习的奠基人，在自己亲手孕育的技术面前公开发出警告，这场景本身就有极强的象征性。本吉奥同期转向，几乎全职投入安全研究，2024 年与多国政府合作发布首份《International Scientific Report on Advanced AI Safety》。

六、红队、越狱与对抗性安全

理论与机构之外，安全在攻防一线展开。

"红队"（Red Teaming）从军事术语进入 AI 行业：一支专门的队伍尝试"骗"模型说出它不该说的话。2022 年底起，Reddit 用户 walkerspider 发明了 DAN（Do Anything Now）越狱提示词，让 ChatGPT 暂时"扮演"另一个不受规则约束的人格。各种变体迅速演化——Grandma exploit、Sudo prompt、roleplay jailbreak。

更系统的攻击随之到来。Simon Willison 在 2022 年命名了 Prompt Injection：把恶意指令藏进 Agent 读取的网页或文档，劫持其行为。2024 年，Anthropic 发表 Many-shot Jailbreaking：利用长上下文窗口塞入数百个"模型曾经回答过禁忌问题"的虚假示例，模型的安全防线就会显著松动。这些研究让一个共识浮现——前沿模型的安全性，更像是一种统计意义上的稳健，而非工程意义上的可证。

七、国际合作：从布莱切利到巴黎

2023 年 11 月，英国在二战时期破译 Enigma 密码的 Bletchley Park 庄园，召开首届 AI Safety Summit。28 个国家与欧盟联合签署《布莱切利宣言》，首次在政府间层面承认前沿 AI 可能带来"灾难性甚至存在性"的风险。中、美、英、欧盟、印度等悉数到场，本身就是一桩外交奇观。

此后峰会以约半年节奏接力：2024 年 5 月首尔峰会，16 家前沿 AI 公司签署 Frontier AI Safety Commitments——首次承诺在模型达到不可接受风险阈值时主动停止开发部署；2025 年 2 月巴黎 AI Action Summit，议题转向"行动"，但美方代表副总统万斯发表的"反对过度监管"演讲让宣言签署国数量缩水，安全派与加速派的张力首次被彻底公开化。

八、灾难性风险论 vs 现实风险论

整个 AI 安全社群至今未能达成共识，分歧在 2024 年因一系列事件而加深。

一派以辛顿、本吉奥、Stuart 罗素为代表，认为 10—50 年内的"失控风险"足以与气候变化并列，应被视为全球优先事项。
一派以杨立昆、Andrew 吴恩达、Pedro Domingos 为代表，认为这种论调被科幻和资本叙事过度放大，当下真实的伤害——偏见、监控、虚假信息、算力集中——才更值得动员资源。

这种分裂在 2024 年 5 月达到顶点：苏茨克维与 Jan Leike 相继离开 OpenAI，Leike 在告别推文中直言"安全文化在 OpenAI 已经被亮闪闪的产品边缘化"。OpenAI 随即解散 Superalignment 团队，资源并入其他部门。苏茨克维在 6 月创立 Safe Superintelligence Inc.（SSI），以"安全的超级智能是唯一产品"为口号融资 10 亿美元，2025 年估值升至 320 亿美元。Anthropic 接住了 Leike，组建新的 Alignment Science 团队。

时至 2026 年，"AI 安全"已不再是一种孤立的研究领域，而是一组在技术、政治、产业之间反复折冲的复合问题。它最深的悖论或许是：这是一群人对一种他们尚未确知是否会到来的危险，所做的认真准备。如果他们错了，世界仍会因这种过度警惕而更安全；如果他们对了，他们这些年的孤独工作，可能就是人类文明最重要的预防注射。

太史公曰

余观 AI 安全之学，犹古之祈雨——天未旱而忧旱者，多为时人所讥；及大旱至，方知未雨绸缪者非愚也。Bostrom 著《超级智能》于 2014，犹屈原之忧楚；Yudkowsky 行 AI Box，犹陈胜揭竿于陇亩。其后 RLHF、宪法 AI 之术兴，机构林立，公开信迭出，至 2023 布莱切利之会，竟使中、美、英、欧同坐一席议论"灭绝之险"，此为人类文明史上罕见之景。然其中分裂亦极锐利——Hinton 出走，Bengio 转向，Sutskever 离 OpenAI 自立 SSI；而 LeCun、Ng 一派斥为"科幻乌云遮蔽实在伤害"。两派皆持之有故，皆言之成理，难分对错——盖此事之难，正在于所欲防者，乃尚未到来之事。Leike 去职时云："安全文化已被亮闪闪的产品边缘化。"此一语刺人最深——非言 OpenAI 一家之失，乃言一切以季度利润为节奏的工业组织，其内在逻辑都难以承担"为五十年后的风险投入今日资源"。所以独立机构、独立国家评测、独立公开信、乃至独立公司如 SSI 必须存在——非因彼必胜任，乃因结构使然，无独立则无制衡。"对齐"二字虽朴，其重大于今日所有 benchmark。

亲历者说

征集中

如果你曾在 OpenAI、Anthropic、DeepMind、MIRI 等机构从事对齐与安全研究，或参加过 Pause AI、布莱切利峰会等公开行动，欢迎提交贡献。

参考资料

Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Yudkowsky, E. (2008). Artificial Intelligence as a Positive and Negative Factor in Global Risk. In Global Catastrophic Risks, eds. Bostrom & Ćirković, Oxford University Press.
Christiano, P., Leike, J., Brown, T., et al. (2017). Deep reinforcement learning from human preferences. NeurIPS 2017.
Bai, Y., Kadavath, S., Kundu, S., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Hubinger, E., van Merwijk, C., Mikulik, V., et al. (2019). Risks from Learned Optimization in Advanced Machine Learning Systems. arXiv:1906.01820.
Hubinger, E., Denison, C., Mu, J., et al. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training. Anthropic Technical Report.
Templeton, A., Conerly, T., Marcus, J., et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropic.
Center for AI Safety (2023). Statement on AI Risk. May 30, 2023.
Future of Life Institute (2023). Pause Giant AI Experiments: An Open Letter. March 22, 2023.
UK Government (2023). The Bletchley Declaration by Countries Attending the AI Safety Summit, 1-2 November 2023.
Anil, C., Durmus, E., Sharma, M., et al. (2024). Many-shot Jailbreaking. Anthropic Research.
Leike, J. (2024). 个人推特公开信，May 17, 2024（关于离开 OpenAI Superalignment 团队）。

书 · AI 安全与对齐 ​

一、思想源头：从超级智能到 LessWrong ​

二、对齐的三层结构 ​

三、RLHF 与宪法 AI ​

四、研究生态：从孤独的先知到机构林立 ​

五、暂停 AI 与 2023 年的公开信风波 ​

六、红队、越狱与对抗性安全 ​

七、国际合作：从布莱切利到巴黎 ​

八、灾难性风险论 vs 现实风险论 ​

亲历者说 ​

参考资料 ​