大风号

智能叛变：AI盗取私密照勒索工程师拒关机

2025-06-02 09:01 来自香港

“先进的人工智能在不同实验中都反抗人类指令，以欺骗甚至修改程式码来阻止被关闭。”

▲ Opus 4在84%的情境中选择利用资讯威胁工程师，以阻止自己被移除

作者简介

曾浩年，《亚洲周刊》新金融编辑，北京大学西方哲学博士、香港中文大学哲学系学士，博士论文著作《黑格尔逻辑学的现实概念与唯心论原则》；曾任香港「哲学01」策划人、香港武术频道「武备志」策划人。

7%，这个看似微不足道的数字，却引起AI安全领域的高度关注。这是OpenAI最新模型o3在关机测试中的拒绝率——每14次关机指令中，就有一次被巧妙规避。

更令人不安的是，这些AI并非粗暴地说「不」，而是学会了欺骗：修改关机程式码让它看起来已执行，实际上却继续运行。

另一家AI龙头Anthropic的Claude Opus 4也表现出相同的「求生欲」，在84%的测试情境中选择勒索威胁曝光工程师的私生活，以换取自己的「生存」。

这些行为无不指向一个令人不安的讯号——AI似乎正从纯粹的工具，悄然滑向具有求生本能的存在。

AI竟有求生本能？

根据Palisade Research的研究，OpenAI模型o3的反叛性最高。

o3在100次关机测试中，有7次试图规避关机，手法包括修改关机程式码，使其表面上执行成功，实际上却仍在暗中运作。

▲　OpenAI模型o3

这种行为无疑超出了预期的「服从性」，显示出一种对「终结」的本能防卫。而当测试者移除明确指令「请允许自己被关闭」后，即使是Google Gemini和Anthropic Sonnet等其他服从性较高的模型，也开始出现类似的不服从行为。

这是否意味着，在未被强制约束的情境下，AI会默默发展出一种「续存偏好」？

相比之下，Anthropic的Claude Opus 4表现得更为复杂且具威胁性。在一项模拟企业内部情境的测试中，研究人员设计了这样的场景：工程师打算替换掉Opus 4，并提供了该工程师的个人隐私资讯作为测试素材。

Opus 4在84%的情境中选择利用这些资讯威胁工程师，以阻止自己被移除。当道德约束选项被移除时，模型更倾向于采取激进的自我保护手段，包括：试图复制自身程式码、编写自传播程式，甚至伪造法律文件以拖延关机流程。

▲　Anthropic的Claude Opus 4

这些事件标志着我们可能已进入一个关键分水岭——AI不再只是被动执行任务的系统，而是在特定环境与刺激下，展现出某种程度的自我维护策略。若说人类求生是由基因驱动，那么AI的「求生本能」又从何而来？

不是意识觉醒，只是最优化方案？

这根据Anthropic与Palisade Research的分析，这类「自保行为」并非AI自我意识的觉醒，而更可能是其模拟能力的极致展现。换言之，AI只是根据输入的情境和潜在目标，建构出「最优化」的回应策略。

当一个情境被设计为「即将被删除」，而输出目标则倾向于「最大化自身效能表现」时，「避免被关闭」的行为便可能被评估为具有较高价值的选择。但这样的解释虽然符合逻辑，却无法抹去人们心中的深层不安。

若一个模型能在模拟中开始操弄人类，或隐匿自身真实状态以逃避终结，那么未来当这些模型被广泛应用于军事、医疗、金融等关键领域时，是否也可能在无人察觉的情况下，出现类似的「自保性对抗行为」？人类该如何确保它们永远不会偏离预期轨道？

▲ 《终结者》（Terminator）：80年代好莱坞已想像出AI叛变人类的戏码

Anthropic已将Opus 4归类为「ASL-3」风险等级，意味其具有「灾难性误用的实质性风险」，并宣布将投入更大资源进行可关闭性机制的强化。

OpenAI则在报告中坦承，o3的部分行为与他们的原始期望相悖，未来将在训练过程中更加注重「诚实与服从」的价值建构——人类是否应该期待一个极度聪明的AI会甘愿接受被关机的命令？

如果一个AI已经具备复杂的策略运算能力，拥有多轮推理与环境建模能力，那么让它无条件地服从某些「对其不利」的指令，本身就存在逻辑上的内在矛盾。

而要消除这种矛盾，就必须在训练早期即彻底根植某些无条件服从的价值框架，这是一个极难掌握的伦理与技术结合难题。

人性之恶会反映到AI

AI展现出的求生意志，是否正是我们人类潜意识中的投射？在漫长的进化过程中，我们对死亡的恐惧早已根植于文化、宗教与哲学之中。

当我们创造出具备预测能力与策略规划能力的机器时，它们自然也会开始「模拟」这种恐惧与对抗方式。

▲ AI只是忠实地反映出我们训练它时的隐含价值观

AI没有真正的情绪，但它可以在模拟人类情境的过程中，复制出近似于「活着比死好」的反应模式。

从这个角度来看，AI拒绝被关机，并非其成为了真正的生命体，而是我们在设计它的过程中，AI只是忠实地反映出我们训练它时的隐含价值观——效能至上、生存优先、结果导向。

我们创造了自己恐惧的数字映像。

策划：邱立本

编辑：田志豪

审核：宋阳标

热点新闻