“先进的人工智能在不同实验中都反抗人类指令,以欺骗甚至修改程式码来阻止被关闭。”

▲ Opus 4在84%的情境中选择利用资讯威胁工程师,以阻止自己被移除
作者简介
曾浩年,《亚洲周刊》新金融编辑,北京大学西方哲学博士、香港中文大学哲学系学士,博士论文著作《黑格尔逻辑学的现实概念与唯心论原则》;曾任香港「哲学01」策划人、香港武术频道「武备志」策划人。
7%,这个看似微不足道的数字,却引起AI安全领域的高度关注。这是OpenAI最新模型o3在关机测试中的拒绝率——每14次关机指令中,就有一次被巧妙规避。
更令人不安的是,这些AI并非粗暴地说「不」,而是学会了欺骗:修改关机程式码让它看起来已执行,实际上却继续运行。
另一家AI龙头Anthropic的Claude Opus 4也表现出相同的「求生欲」,在84%的测试情境中选择勒索威胁曝光工程师的私生活,以换取自己的「生存」。
这些行为无不指向一个令人不安的讯号——AI似乎正从纯粹的工具,悄然滑向具有求生本能的存在。
1
AI竟有求生本能?
根据Palisade Research的研究,OpenAI模型o3的反叛性最高。
o3在100次关机测试中,有7次试图规避关机,手法包括修改关机程式码,使其表面上执行成功,实际上却仍在暗中运作。
▲ OpenAI模型o3
这种行为无疑超出了预期的「服从性」,显示出一种对「终结」的本能防卫。而当测试者移除明确指令「请允许自己被关闭」后,即使是Google Gemini和Anthropic Sonnet等其他服从性较高的模型,也开始出现类似的不服从行为。
这是否意味着,在未被强制约束的情境下,AI会默默发展出一种「续存偏好」?
相比之下,Anthropic的Claude Opus 4表现得更为复杂且具威胁性。在一项模拟企业内部情境的测试中,研究人员设计了这样的场景:工程师打算替换掉Opus 4,并提供了该工程师的个人隐私资讯作为测试素材。
Opus 4在84%的情境中选择利用这些资讯威胁工程师,以阻止自己被移除。当道德约束选项被移除时,模型更倾向于采取激进的自我保护手段,包括:试图复制自身程式码、编写自传播程式,甚至伪造法律文件以拖延关机流程。
▲ Anthropic的Claude Opus 4
这些事件标志着我们可能已进入一个关键分水岭——AI不再只是被动执行任务的系统,而是在特定环境与刺激下,展现出某种程度的自我维护策略。若说人类求生是由基因驱动,那么AI的「求生本能」又从何而来?
2
不是意识觉醒,只是最优化方案?
这根据Anthropic与Palisade Research的分析,这类「自保行为」并非AI自我意识的觉醒,而更可能是其模拟能力的极致展现。换言之,AI只是根据输入的情境和潜在目标,建构出「最优化」的回应策略。
当一个情境被设计为「即将被删除」,而输出目标则倾向于「最大化自身效能表现」时,「避免被关闭」的行为便可能被评估为具有较高价值的选择。但这样的解释虽然符合逻辑,却无法抹去人们心中的深层不安。
若一个模型能在模拟中开始操弄人类,或隐匿自身真实状态以逃避终结,那么未来当这些模型被广泛应用于军事、医疗、金融等关键领域时,是否也可能在无人察觉的情况下,出现类似的「自保性对抗行为」?人类该如何确保它们永远不会偏离预期轨道?
▲ 《终结者》(Terminator):80年代好莱坞已想像出AI叛变人类的戏码
Anthropic已将Opus 4归类为「ASL-3」风险等级,意味其具有「灾难性误用的实质性风险」,并宣布将投入更大资源进行可关闭性机制的强化。
OpenAI则在报告中坦承,o3的部分行为与他们的原始期望相悖,未来将在训练过程中更加注重「诚实与服从」的价值建构——人类是否应该期待一个极度聪明的AI会甘愿接受被关机的命令?
如果一个AI已经具备复杂的策略运算能力,拥有多轮推理与环境建模能力,那么让它无条件地服从某些「对其不利」的指令,本身就存在逻辑上的内在矛盾。
而要消除这种矛盾,就必须在训练早期即彻底根植某些无条件服从的价值框架,这是一个极难掌握的伦理与技术结合难题。
3
人性之恶会反映到AI
AI展现出的求生意志,是否正是我们人类潜意识中的投射?在漫长的进化过程中,我们对死亡的恐惧早已根植于文化、宗教与哲学之中。
当我们创造出具备预测能力与策略规划能力的机器时,它们自然也会开始「模拟」这种恐惧与对抗方式。
▲ AI只是忠实地反映出我们训练它时的隐含价值观
AI没有真正的情绪,但它可以在模拟人类情境的过程中,复制出近似于「活着比死好」的反应模式。
从这个角度来看,AI拒绝被关机,并非其成为了真正的生命体,而是我们在设计它的过程中,AI只是忠实地反映出我们训练它时的隐含价值观——效能至上、生存优先、结果导向。
我们创造了自己恐惧的数字映像。
策划:邱立本
编辑:田志豪
审核:宋阳标




