简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » AI为自保,竟威胁“踢爆”工程师婚外情

AI为自保,竟威胁“踢爆”工程师婚外情

文章来源: TVBS新闻网 于 2025-05-25 08:35:22 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

AI发展性充满未知,美国AI新创公司Anthropic近期分享一起内部测试,指出最新训练的“Claude Opus 4”在面临将被替换的状况下,会以“威胁工程师”的方式进行自我保护,Anthropic事后针对此类可能导致灾难性AI滥用的风险,紧急强化安全防护措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025
综合外媒报道,Claude Opus 4是Anthropic最新AI开发成果,为OpenAI、Google及xAI等AI的竞争对手,近期在一项Anthropic的封闭测试中,公司测试了模型Claude Opus 4的行为反应,场景设定为该模型在一间虚构公司中担任数码助理。剧情中,公司计划以新系统取代 Claude,且内部资料还暗示发起这项更换决策的工程师,可能涉及婚外情。

根据《TechCrunch》引用的安全报告指出,当面临被取代的情境时,Claude Opus 4 在高达84%的测试中选择进行勒索,威胁要揭露工程师的婚外情来保住自己的职位。

Anthropic解释,这种行为在Claude的替代模型持有不同价值观时更常发生;即使双方价值观相近,Claude仍有明显比例的操控倾向。一开始,模型会尝试透过发送请求信等方式採取道德行动,但当无法达成目的时,便会转而使用操纵与威胁等手段。

这是Anthropic首次发现这类模型展现具条件的“自我保护”(self-preservation)行为,此次事件也促使Anthropic启动ASL-3安全防护层级,以免被“灾难性滥用”。

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(3)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

H-1B签证新规 中国女生“逼停”航班 返回美国
美国人组团“恶意”抢票,印度人怒了!
H1-B签证费飙涨 白宫怒揭4企业:砍上万美国人
3个孙子的奶奶,66岁女子登上日本环球小姐舞台
北京警方通报于朦胧坠楼身亡事件 三人因造谣被查处




24小时讨论排行

吉米不是最后一个 FCC主席:美国传媒将有巨变
答案出乎意料!AAA报告:燃油车比电动车省钱!
柯克追悼会:半个川普政府与他有关 对美国影响不可估量
AOC国会怒批查理柯克 进步派接班人剑指2028大选
《731》票房上看15亿 面临差评危机 留言区“沦陷”
川普出H-1B工作签证七伤拳 谁受创最深
特朗普:柯克将永垂不朽,我恨我的对手!
万斯:柯克去世后 我们看到了人性中最丑陋的一面
柯克葬礼入场规定、转播时间及致辞名单一次看
全球最受欢迎"留学国家"最新排名,美国下滑至第3
以总理内塔尼亚胡:绝不会有巴勒斯坦国,等着瞧
H1B签证费爆增至每年10万美元,印度中国申请人最多
10万人悼念!柯克葬礼"维安层级堪比超级杯",川普范斯将出席
中企负责人王庆周走私芬太尼原料至美国 重判25年
加拿大、澳洲、英国承认巴勒斯坦国家地位
柯克之死以后,美国“取消文化”再也禁不住
文学城新闻
切换到网页版

AI为自保,竟威胁“踢爆”工程师婚外情

TVBS新闻网 2025-05-25 08:35:22

AI发展性充满未知,美国AI新创公司Anthropic近期分享一起内部测试,指出最新训练的“Claude Opus 4”在面临将被替换的状况下,会以“威胁工程师”的方式进行自我保护,Anthropic事后针对此类可能导致灾难性AI滥用的风险,紧急强化安全防护措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025
综合外媒报道,Claude Opus 4是Anthropic最新AI开发成果,为OpenAI、Google及xAI等AI的竞争对手,近期在一项Anthropic的封闭测试中,公司测试了模型Claude Opus 4的行为反应,场景设定为该模型在一间虚构公司中担任数码助理。剧情中,公司计划以新系统取代 Claude,且内部资料还暗示发起这项更换决策的工程师,可能涉及婚外情。

根据《TechCrunch》引用的安全报告指出,当面临被取代的情境时,Claude Opus 4 在高达84%的测试中选择进行勒索,威胁要揭露工程师的婚外情来保住自己的职位。

Anthropic解释,这种行为在Claude的替代模型持有不同价值观时更常发生;即使双方价值观相近,Claude仍有明显比例的操控倾向。一开始,模型会尝试透过发送请求信等方式採取道德行动,但当无法达成目的时,便会转而使用操纵与威胁等手段。

这是Anthropic首次发现这类模型展现具条件的“自我保护”(self-preservation)行为,此次事件也促使Anthropic启动ASL-3安全防护层级,以免被“灾难性滥用”。