简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » AI为自保,竟威胁“踢爆”工程师婚外情

AI为自保,竟威胁“踢爆”工程师婚外情

文章来源: TVBS新闻网 于 2025-05-25 08:35:22 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

AI发展性充满未知,美国AI新创公司Anthropic近期分享一起内部测试,指出最新训练的“Claude Opus 4”在面临将被替换的状况下,会以“威胁工程师”的方式进行自我保护,Anthropic事后针对此类可能导致灾难性AI滥用的风险,紧急强化安全防护措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025
综合外媒报道,Claude Opus 4是Anthropic最新AI开发成果,为OpenAI、Google及xAI等AI的竞争对手,近期在一项Anthropic的封闭测试中,公司测试了模型Claude Opus 4的行为反应,场景设定为该模型在一间虚构公司中担任数码助理。剧情中,公司计划以新系统取代 Claude,且内部资料还暗示发起这项更换决策的工程师,可能涉及婚外情。

根据《TechCrunch》引用的安全报告指出,当面临被取代的情境时,Claude Opus 4 在高达84%的测试中选择进行勒索,威胁要揭露工程师的婚外情来保住自己的职位。

Anthropic解释,这种行为在Claude的替代模型持有不同价值观时更常发生;即使双方价值观相近,Claude仍有明显比例的操控倾向。一开始,模型会尝试透过发送请求信等方式採取道德行动,但当无法达成目的时,便会转而使用操纵与威胁等手段。

这是Anthropic首次发现这类模型展现具条件的“自我保护”(self-preservation)行为,此次事件也促使Anthropic启动ASL-3安全防护层级,以免被“灾难性滥用”。

  • 春季特大酬宾!美国专利产品【骨精华】买6送2、买12送5!六周改善关节疼痛,延缓骨质疏松。
查看评论(3)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

名校毕业年薪7万进Costco 白人父骄傲 华人却吵翻了
北京大学原副校长被逮捕 受贿“数额特别巨大”
不显山露水 美国隐形巨富阶层快速崛起
美联航推“沙发式经济舱”:3人座可躺平 舒适长途体验
川普当面甩锅:皮特,我想你是第一个站出来的人…




24小时讨论排行

经济学人:如果川普强行打开海峡 会是怎样的战斗
中国将成为伊朗战争的赢家?不参战却在布局未来
施压海湾国家?传川普索$2.5万亿“战争结算费”
“何时结束美国说了不算” 伊朗列停火5条件 否则免谈
BBC:伊朗拒绝与美国谈判,反映不信任
美军“闪电夺岛”计划曝光!豪赌中东最危险一战
大清洗加速!盘点“消失”的军工院士们
涉贪7亿 中国航空工业集团前董事长谭瑞松判死缓
伊朗考虑美国和平方案 油价回落 美股收高…
中国“军工虎”被判死缓:涉案超7亿 参与内幕交易
“川普村”变天释危险信号 民主党赢“海湖庄园选区”
此文全网被禁——张雪峰:理想主义的反面
退役体操冠军,直播“擦边”之后
人形机器人和梅拉尼娅同步出现在白宫东厅
金正恩:美伊战争证明朝鲜发展核武是正确决定
伊朗酸川普"自己跟自己谈判",称打到敌人后悔为止
文学城新闻
切换到网页版

AI为自保,竟威胁“踢爆”工程师婚外情

TVBS新闻网 2025-05-25 08:35:22

AI发展性充满未知,美国AI新创公司Anthropic近期分享一起内部测试,指出最新训练的“Claude Opus 4”在面临将被替换的状况下,会以“威胁工程师”的方式进行自我保护,Anthropic事后针对此类可能导致灾难性AI滥用的风险,紧急强化安全防护措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025
综合外媒报道,Claude Opus 4是Anthropic最新AI开发成果,为OpenAI、Google及xAI等AI的竞争对手,近期在一项Anthropic的封闭测试中,公司测试了模型Claude Opus 4的行为反应,场景设定为该模型在一间虚构公司中担任数码助理。剧情中,公司计划以新系统取代 Claude,且内部资料还暗示发起这项更换决策的工程师,可能涉及婚外情。

根据《TechCrunch》引用的安全报告指出,当面临被取代的情境时,Claude Opus 4 在高达84%的测试中选择进行勒索,威胁要揭露工程师的婚外情来保住自己的职位。

Anthropic解释,这种行为在Claude的替代模型持有不同价值观时更常发生;即使双方价值观相近,Claude仍有明显比例的操控倾向。一开始,模型会尝试透过发送请求信等方式採取道德行动,但当无法达成目的时,便会转而使用操纵与威胁等手段。

这是Anthropic首次发现这类模型展现具条件的“自我保护”(self-preservation)行为,此次事件也促使Anthropic启动ASL-3安全防护层级,以免被“灾难性滥用”。