简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 生活百态 » 求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

文章来源: ettoday 于 2025-05-24 00:24:10 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(2)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

中国的maskpark,可能比韩国N号房更恶劣
致命的出差:一起车祸“撞碎”四个家庭
前男友把她卖给了十万人:起底跨境偷拍群的肮脏交易
世卫组织发警报!一文读懂这个席卷欧洲的新疫情
有两家良心媒体已经把“溺亡”改为“遇难”了




24小时讨论排行

特朗普称“要让药价降低1500%”,被批数学逻辑混乱
美国海关突发提醒:绿卡持有者未随身携带是犯法!
中国创新药出海爆单:半年已揽下660亿美元
特朗普突然拉马斯克一把:想让他的公司蓬勃发展
如此生活20年,直到坠入岩浆
梅根亲写回忆录揭露凯特 戴安娜的悲剧或将重演
6名大学生选矿厂遇难 高工分析“为何救援时间长”
印度称将全力申办2036年奥运会 竞争对手有这几国
中国原计划赶超SpaceX 如今越来越渺茫 关键难题是…
特朗普对奥巴马:有多少恨,可以胡来
美司法部2号人物、特朗普前律师会见爱泼斯坦同伙
特朗普试图向马斯克示好求和?马斯克不买账!
马克龙宣布法国将正式承认巴勒斯坦 以国不满
马克龙称法将承认巴勒斯坦国 美驻以大使公开嘲笑
俄官员:超过70国3500名外国雇佣兵参与乌军行动
美国退出《巴黎协定》,中欧承诺合作减缓气候变暖
文学城新闻
切换到网页版

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

ettoday 2025-05-24 00:24:10


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。