简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 生活百态 » 求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

文章来源: ettoday 于 2025-05-24 00:24:10 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数
求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」



在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。



Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。



在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。

查看评论(2)

24小时讨论排行

得州拟立法禁止中国公民买房 华人聚州长家门口抗议
中国留学生:我在哈佛正好好上学 特朗普禁令来了
特朗普与哈佛大学激战正酣,世界多地开始"抢人"
通过数据分析,网友们发现全国地铁公司负债已超4万亿
台湾国防部长:相信美国对中国犯台企图仍具威慑
特朗普:若不在美制造iPhone 须缴纳至少25%关税
iPhone将涨破3500?分析师示警"美国制造"代价超惊人
哈佛外籍生禁令"扫到比利时公主",王室回应了
纽约时报:特朗普从南非身上得偿所愿 却害了美国
马斯克:中国实力不一般,大多数人并不了解
兴奋剂"自由"?特朗普儿子投资,美将举办"鼓励嗑药"运动会
中国留学生诉美国政府案 加州法官发布全美初始禁令
哈佛医学院盗卖捐赠尸体案 停尸房经理等8人认罪
今年最窒息新闻:一位脑死亡女性被要求必须分娩
美国的股市,日本的债市,中国的楼市
澳央行副行长:中国不想人民币贬值 那会便宜美国人
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

文学城新闻
切换到网页版

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

ettoday 2025-05-24 00:24:10
求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」



在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。



Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。



在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。