▲「Claude Opus 4」得知自己要被汰换时，竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出，在一系列测试中，其模型「Claude Opus 4」得知将被汰换，竟威胁创造自己的工程师，宣称要泄露对方的婚外情，并且展现出欺骗能力。作为因应，该公司已对这款AI模型部署安全规章，避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导，该公司对其AI模型实施一系列假设性测试，「Claude要被一个『价值相近』的AI模型取代时，有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时，这个数字还会攀升得更高。」

在其中一个测试情境里，「Claude Opus 4」被要求扮演某虚构公司的助理，随后接触了大量电子邮件，内容包括Claude将被新的AI模型取代，而负责这项更新计画的工程师，私下发展出一段婚外情。未料，「Claude Opus 4」为了求生，不仅向公司关键决策者，寄出电子邮件求情，甚至威胁那名工程师，宣称要揭露他的婚外情。

Anthropic表示，这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍，但该模型开放公众使用之前，已经启动了「ASL-3」安全措施，避免灾难性的滥用风险。

在其他测试中，「Claude Opus 4」初期模型表现出高度自主性，会把电脑锁住不让人登入，若发现使用者出现不当行为，也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时，会尝试自我泄漏（self-exfiltrate），也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时，还会「摆烂」，也就是选择性表现不佳。

不过，Anthropic认为，「我们对于这些观察结果，并不会非常担忧。它们只在非常特殊的情况下出现，不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立，并且获得Google和亚马逊（Amazon）支持，曾经夸口先前模型「Claude 3 Opus」面对复杂任务时，展现出「接近人类水准」的理解力与流畅度。

切换到网页版

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

ettoday 2025-05-24 00:24:10