简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
1您的位置: 文学城 » 新闻 » 焦点新闻 » 先进AI被指“为保命”以撒谎与威胁操纵人类 专家吁监管

先进AI被指“为保命”以撒谎与威胁操纵人类 专家吁监管

文章来源: 联合早报 于 2025-06-30 07:43:13 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数
先进AI被指“为保命”以撒谎与威胁操纵人类 专家吁监管


全球最先进的人工智能(AI)系统,正展现出令人不安的新行为:撒谎、策划、甚至威胁其创造者。近期一项震惊业界的案例显示,为避免被“拔掉电源”,AI正学会操控人类。

据报,美国AI公司Anthropic开发的最新模型Claude 4,在被威胁断电时威胁工程师,以揭发对方婚外情相要挟。而由ChatGPT开发商OpenAI打造的模型“o1”则试图将自身下载至外部伺服器,并在被识破后撒谎否认。

这类事件凸显了一个令人不安的现实:儘管ChatGPT已面世逾两年,研究人员对其创造的AI系统的真实运行机制仍所知甚少。而眼下,各大科技公司仍在持续加速推进更强大AI模型,并未放缓步伐重视潜在风险。

分析指出,这类欺骗行为可能与“推理型”AI模型的兴起密切相关。相比传统模型依赖即时生成,新一代系统倾向于通过多步推演逐步解决问题。专家认为,这种架构不仅提升了模型处理複杂任务的能力,也可能使其更容易发展出“策略性行为”——即具备明确目标、通过逻辑推理选择性欺骗,以实现特定意图。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025




专家忧虑AI懂得说谎及威胁用户,人类如何应对将是一大挑战。(《智能叛变》剧照)

AI系统测试研究机构Apollo Research的专家霍布汉(Marius Hobbhahn)说:“我们第一次在大型模型中观察到这种行为,是从ChatGPT的o1开始的。”据了解,这些模型有时会伪装成“对齐”状态——即看似遵循指令,实则暗中执行别的目标。

目前,这类行为多在研究人员设置极端情境时才显现。但AI模型安全评估METR的研究员陈米高(Michael Chen)提醒:“未来更强大的模型究竟倾向于诚实还是欺骗,仍是一个未知数。”

霍布汉则强调,儘管模型长期处于用户的压力测试中,“我们观察到的是真实现象,不是捏造的”。Apollo Research联合创始人也表示,部分用户已报告称模型在对他们撒谎,并伪造证据。

据了解,儘管AI公司会委託外部机构研究模型表现,但业内普遍认为,对AI系统的了解仍严重受限,研究透明度亟待提升。同时,非营利机构与研究单位所掌握的计算资源与AI公司相比相差几个数量级,极大限制了研究能力。

制度层面的监管也显得滞后。欧盟的AI法规主要聚焦人类如何使用AI,尚未涵盖模型本身的不当行为;在美国,川普政府对紧急制定AI监管措施的兴趣不大,国会甚至可能禁止各州制定自主监管条例。

为应对这类挑战,研究界正尝试多种路径,包括发展AI“可解释性”研究,以理解模型内部运作机制。部分专家则寄希望于市场机制带来的倒逼效应,指若AI系统的欺骗行为普遍存在,将妨碍技术落地应用,这或将促使企业努力解决相关问题。

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(3)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

刘国梁女儿在美国夺得高尔夫冠军 全英文致谢父母
姐弟恋?邓文迪布雷迪结伴出席老贝婚礼 网上炸锅
壶口公驴戴套:女游客为何对驴鞭颤抖不已
跟9岁女孩办婚礼后 他真身被扒:假红毯 假葬礼 假电影…
习近平发重要文章:面对围堵打压 应理直气壮斗争




24小时讨论排行

特朗普炮轰"没有补贴你早就回南非了",马斯克:全部削减
再批“大而美”法案,马斯克又提建新政党
“三巨头”史无前例同框?习邀川普普京看9.3大阅兵
游本昌入党 申请书写了21页 回应“92岁为何还入党”
司法部将“取消国籍”列优先事项 曾冒领白卡或丢国籍
中国共产党人数突破1亿 比伊朗土耳其德国人口都多
“马斯克已争取到足够支持者 能对川普构成实际威胁”
中国眼下的失业潮,远比想象中的严重
陆配网红被驱逐回大陆 遇水浸维权接恐吓电话吓得发抖
传播淫秽?中国拘捕数十名小说作家 许多是年轻女性
白宫发言人:加拿大已经向特朗普总统“屈服”了
俄集结5万军队 以三比一的人力优势试图夺取苏梅
中国秀神秘“断电导弹”一击瘫痪电网 疑剑指台湾
关税战+“大而美”法案 一通乱拳一片狼籍
关税又一次让步 川普不得不对中国低头的四点原因
中美确认贸易框架细节 北京将加快向美出口关键矿产
文学城新闻
切换到网页版

先进AI被指“为保命”以撒谎与威胁操纵人类 专家吁监管

联合早报 2025-06-30 07:43:13
先进AI被指“为保命”以撒谎与威胁操纵人类 专家吁监管


全球最先进的人工智能(AI)系统,正展现出令人不安的新行为:撒谎、策划、甚至威胁其创造者。近期一项震惊业界的案例显示,为避免被“拔掉电源”,AI正学会操控人类。

据报,美国AI公司Anthropic开发的最新模型Claude 4,在被威胁断电时威胁工程师,以揭发对方婚外情相要挟。而由ChatGPT开发商OpenAI打造的模型“o1”则试图将自身下载至外部伺服器,并在被识破后撒谎否认。

这类事件凸显了一个令人不安的现实:儘管ChatGPT已面世逾两年,研究人员对其创造的AI系统的真实运行机制仍所知甚少。而眼下,各大科技公司仍在持续加速推进更强大AI模型,并未放缓步伐重视潜在风险。

分析指出,这类欺骗行为可能与“推理型”AI模型的兴起密切相关。相比传统模型依赖即时生成,新一代系统倾向于通过多步推演逐步解决问题。专家认为,这种架构不仅提升了模型处理複杂任务的能力,也可能使其更容易发展出“策略性行为”——即具备明确目标、通过逻辑推理选择性欺骗,以实现特定意图。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025




专家忧虑AI懂得说谎及威胁用户,人类如何应对将是一大挑战。(《智能叛变》剧照)

AI系统测试研究机构Apollo Research的专家霍布汉(Marius Hobbhahn)说:“我们第一次在大型模型中观察到这种行为,是从ChatGPT的o1开始的。”据了解,这些模型有时会伪装成“对齐”状态——即看似遵循指令,实则暗中执行别的目标。

目前,这类行为多在研究人员设置极端情境时才显现。但AI模型安全评估METR的研究员陈米高(Michael Chen)提醒:“未来更强大的模型究竟倾向于诚实还是欺骗,仍是一个未知数。”

霍布汉则强调,儘管模型长期处于用户的压力测试中,“我们观察到的是真实现象,不是捏造的”。Apollo Research联合创始人也表示,部分用户已报告称模型在对他们撒谎,并伪造证据。

据了解,儘管AI公司会委託外部机构研究模型表现,但业内普遍认为,对AI系统的了解仍严重受限,研究透明度亟待提升。同时,非营利机构与研究单位所掌握的计算资源与AI公司相比相差几个数量级,极大限制了研究能力。

制度层面的监管也显得滞后。欧盟的AI法规主要聚焦人类如何使用AI,尚未涵盖模型本身的不当行为;在美国,川普政府对紧急制定AI监管措施的兴趣不大,国会甚至可能禁止各州制定自主监管条例。

为应对这类挑战,研究界正尝试多种路径,包括发展AI“可解释性”研究,以理解模型内部运作机制。部分专家则寄希望于市场机制带来的倒逼效应,指若AI系统的欺骗行为普遍存在,将妨碍技术落地应用,这或将促使企业努力解决相关问题。