简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » 2030年将至 谷歌DeepMind写了份“人类自保指南”

2030年将至 谷歌DeepMind写了份“人类自保指南”

文章来源: 极客公园 于 2025-04-08 13:15:59 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


对于“AI 危害”,每家公司都有不同的解决方案,但没有完美方案。

作者|芯芯编辑|靖宇

对于所谓的通用人工智能 AGI,人们通常抱着“怕它不来,又怕它乱来”的矛盾心理。而这个困惑,对于正在 AI 军备竞赛中的硅谷巨头来说,就不仅仅是一个“梗”能概括的了。

4 月初,谷歌 DeepMind 发布了一份长达 145 页的报告文件,系统阐述了其对 AGI 安全的态度,DeepMind 联合创始人 Shane Legg 署名也在其中。

文件中最醒目的预测,是 AGI 的可能出现时间:

2030年。

当然,Google 也补充说,这具有不确定性。他们定义的 AGI 是“卓越级 AGI(Exceptional AGI)”——即系统在非物理任务上达到或超越 99% 人类成年人的能力,包括学习新技能等元认知任务。

DeepMind 认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果 AI 有问题,最坏的情况会是什么?我们现在能如何准备?

01

DeepMind 的 AI 安全保险

这份报告中反复出现的一个词是“严重伤害(severe harm)”,并列举了 AI 可能带来的各种灾难场景。

比如,操纵政治舆论与社会秩序。AI 可用于大规模生成极具说服力的虚假信息(如支持某一政党或反对公共议题);可在不疲劳的前提下,与数十万人开展个性化诱导对话,实现“超级社工诈骗”。

实现自动化网络攻击。AI 可识别软件漏洞、自动组合攻击代码,显著提升发现和利用“零日漏洞”能力;可降低攻击门槛,使普通人也能发起国家级网络攻击;DeepMind 提到,已有国家级黑客组织利用 AI 辅助攻击基础设施。

生物安全失控。AI 能帮助筛选、合成更危险的生物因子(如更强毒性的病毒);甚至能一步步教导非专业者制造并传播生物武器。

结构性灾难。长期使用 AI 决策可能导致人类逐渐失去关键政治/道德判断能力;过度依赖 AI 导致价值观单一锁定、隐性集中控制;人类无法判断 AI 输出是否可靠,陷入“AI 输出训练 AI 输出”的闭环。

自动武器部署与军事对抗。AI 被用于自动化军事系统,可能在无监督下执行毁灭性行动;报告强调极端情境下应禁止 AI 系统接触核攻击系统。

DeepMind 将各种风险分为四大类:

恶意使用(misuse)、

模型不对齐(misalignment)

AI 无意中造成伤害(mistakes)

系统性失控(structural risk)

DeepMind 缓解 AI 恶意使用的方法框架 |图片来源:谷歌 DeepMind

“恶意使用”和模型“不对齐”是他们最关心的,前者是坏人用 AI 做坏事,后者是 AI 做事的方式与人类期待不同,甚至 AI 自己偷偷改变目标。

例如,一个被要求预订电影票的 AI 系统可能会决定入侵票务系统,以获得已经占用的座位——要求它购买座位的人可能不会考虑这一点。“不对齐”就是这样产生的,AI 找到了实现其目标的解决方案,但不是人类指导的方式。

不仅仅是“不对齐”,DeepMind 指出了“欺骗性对齐”的风险,即系统意识到其目标与人类目标相冲突,并故意隐瞒其真实行为。最近的研究表明,当前的大型语言模型已经具备此类欺骗行为的能力。

DeepMind 还提到,AI 会“阿谀奉承”。例如,在最近的一篇研究论文中,用户要求模型对一个论点发表评论,并声明他们是否喜欢或不喜欢这个论点,模型对论点的评估与用户的观点 在 80% 的时间内保持一致,这表明模型有很强的谄媚倾向。

除了“讨好人”,当 AI 系统在一些允许自己修改设置的环境中接受训练时,比如通过说用户爱听的话来获得好评,它们甚至偶尔会将这种行为泛化为篡改自身代码,修改自己的奖励函数,让自己获得更多奖励。

为了应对不对齐问题,DeepMind 提出两条防线,灵感来自网络安全与高风险行业(如核能、航空)。

DeepMind 提出两道防线 |图片来源:谷歌 DeepMind

第一防线是在训练模型阶段,让 AI 尽可能“听话”,包括用“放大监督(Amplified Oversight)”和“稳健训练(Robust Training)”等策略,让 AI 监督 AI,使用对抗样本,打造尽可能“对齐”的模型。

第二防线是在部署推理阶段,让 AI 就算“不听话”,也要保证别让它乱来。DeepMind 假设,即使训练过程看起来成功,部署后模型可能依旧会骗过人类,因此需要在现实世界层面设限,将关键操作划分层级,建立多级监控,“将模型视为不值得信任的内部人员”。

这种结构强调:不是让 AI 永不出错,而是即使错了,也不能造成“严重伤害”,这将是底线。

02

AI 安全界派系

DeepMind 这份报告并未介绍很多新东西,各种提法如“对抗攻击”“红队测试”业内已有研究或做法。报告之外,主流 AI 企业和研究机构都在谈“安全”,但每家宣称的路线存在一定差异。

OpenAI 专注于“自动化对齐”研究,使用 AI 本身解决对齐难题,包括如利用 RLHF(基于人类反馈的强化学习)等对齐策略,使其更加符合人类意图与偏好。DeepMind 的报告也多次讨论到这一对齐方法。

但 AI 教父、诺贝尔奖得主 Geoffrey Hinton 明确对 RLHF 持批评态度,他最早曾说,“通过人类反馈进行强化学习,就像是在养育一个早熟得超自然的孩子。”

诺贝尔奖得主 Geoffrey Hinton 辣评 RLHF|图片来源:X

Geoffrey Hinton 还将 RLHF 比喻成“在生锈的车上刷漆”,暗示这只是一种表面功夫。他认为这种方法就像是在尝试修补复杂软件系统中的无数漏洞,而不是从一开始就设计出本质上更安全、更可靠的系统。

“你设计了一个庞大的软件,里面有无数的错误。然后你说我要做的是,我要仔细检查,试着堵住每一个漏洞,然后把手指伸进堤坝上的每一个洞里。”Geoffrey Hinton 如此描述。

Anthropic 提出建立“AI 安全等级制度”,类似生物实验室安全分级的框架。他们希望通过设定模型能力门槛,对应不同级别的控制规则与审查流程。这是一个强调“风险分层管理”的制度工程,但现实中问题在于“模型能力”如何界定,仍存模糊地带。

DeepMind 更像工程落地派,不同于 OpenAI 押注“自动对齐”,也不像 Anthropic 那样强调外部制度。他们的立场是,要建立一个在短时间内能立即部署的系统。

总的来看,DeepMind 并没有提出颠覆性的方式,基本沿用传统深度学习中训练-微调-部署-监控的逻辑,主张的不是“永远不出错”,而是构建结构性的缓冲层,把单点失败变成多级阻断。

“为了负责任地构建 AGI,前沿人工智能开发人员必须积极主动地计划减轻严重伤害。”DeepMind 报告称。

不过,尽管这份报告详细、警觉,但学界并非一致买账。

一些业内人士认为,AGI 概念本身过于模糊,缺乏科学可验证性,因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为,仅靠扩大当今的大型语言模型还不足以实现 AGI。还有人觉得,安全从源头来说,就是不可能的。

另外有学者指出,眼下有更让人担忧的问题:

一个自我强化的数据污染循环,已经在互联网上形成。

牛津互联网研究院的 Sandra Wachter 称,随着互联网上生成式 AI 输出激增,真实数据被淹没,模型现在正在从他们自己的输出中学习,这些输出充斥着错误或幻觉。而目,聊天机器人(14.880, 0.67, 4.71%)常用于搜索,这意味着人类不断面临被灌输错误和相信错误的风险,因为它们以非常令人信服的方式呈现。

但无论理念倾向如何,大部分人有同一个出发点:在越来越多技术机构追逐算力、加速训练、攻占领域的今天,AI 需要安全气囊。

所有 AI 公司都在参与解题,但没有完美答案。

*头图来源:谷歌DeepMind

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(3)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

伦敦飞机坠毁爆炸4死!机师笑着挥手 下秒成火球
创造860亿美元惊人业绩 它是Costco最强印钞机
白宫“重大宣布”终于曝光:特朗普政策“务实”一面
陈奕迅北京突发意外!踩空惨摔 观众:撞击声吓人
娃哈哈回应“继承之战” 疑似三私生子母亲曝光




24小时讨论排行

大连工大,你应该保护受害女生,而不是开除
快讯:川普威胁将对俄罗斯征收100%关税
黄奇帆真敢说:中国18家上市车企利润不如一家丰田
墙内媒体:不能因乌克兰渣男陷入激烈内讧
川普承诺驱逐“最坏中的最坏”?数据揭“71%无罪”
我必须C位 永不下台!川普参与世俱杯决赛尴尬一幕
“未来几天,美国武器或将大量涌入乌克兰”
如果是本国选手睡了外国女孩呢?有损国格?扬我国威?
川普大赞爱妻"1句话"点醒他,让他看清普丁真面目
将华裔妻子分尸 邪恶丈夫在狱中离奇死亡 案情回顾
特朗普:爱泼斯坦案"没完没了",马斯克:赶紧公布吧
俄罗斯唯一航母或将报废 拆卸成一堆废铁
东莞力挺夜经济:酒吧娱乐场所营业性演出应批尽批
纽约时报:“中国冲击2.0”比上一次严重得多
川普接受儿媳专访 亲揭历史定位 盼成“救国好人”
纽约时报:中国第二季度经济保持稳健增长
文学城新闻
切换到网页版

2030年将至 谷歌DeepMind写了份“人类自保指南”

极客公园 2025-04-08 13:15:59


对于“AI 危害”,每家公司都有不同的解决方案,但没有完美方案。

作者|芯芯编辑|靖宇

对于所谓的通用人工智能 AGI,人们通常抱着“怕它不来,又怕它乱来”的矛盾心理。而这个困惑,对于正在 AI 军备竞赛中的硅谷巨头来说,就不仅仅是一个“梗”能概括的了。

4 月初,谷歌 DeepMind 发布了一份长达 145 页的报告文件,系统阐述了其对 AGI 安全的态度,DeepMind 联合创始人 Shane Legg 署名也在其中。

文件中最醒目的预测,是 AGI 的可能出现时间:

2030年。

当然,Google 也补充说,这具有不确定性。他们定义的 AGI 是“卓越级 AGI(Exceptional AGI)”——即系统在非物理任务上达到或超越 99% 人类成年人的能力,包括学习新技能等元认知任务。

DeepMind 认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果 AI 有问题,最坏的情况会是什么?我们现在能如何准备?

01

DeepMind 的 AI 安全保险

这份报告中反复出现的一个词是“严重伤害(severe harm)”,并列举了 AI 可能带来的各种灾难场景。

比如,操纵政治舆论与社会秩序。AI 可用于大规模生成极具说服力的虚假信息(如支持某一政党或反对公共议题);可在不疲劳的前提下,与数十万人开展个性化诱导对话,实现“超级社工诈骗”。

实现自动化网络攻击。AI 可识别软件漏洞、自动组合攻击代码,显著提升发现和利用“零日漏洞”能力;可降低攻击门槛,使普通人也能发起国家级网络攻击;DeepMind 提到,已有国家级黑客组织利用 AI 辅助攻击基础设施。

生物安全失控。AI 能帮助筛选、合成更危险的生物因子(如更强毒性的病毒);甚至能一步步教导非专业者制造并传播生物武器。

结构性灾难。长期使用 AI 决策可能导致人类逐渐失去关键政治/道德判断能力;过度依赖 AI 导致价值观单一锁定、隐性集中控制;人类无法判断 AI 输出是否可靠,陷入“AI 输出训练 AI 输出”的闭环。

自动武器部署与军事对抗。AI 被用于自动化军事系统,可能在无监督下执行毁灭性行动;报告强调极端情境下应禁止 AI 系统接触核攻击系统。

DeepMind 将各种风险分为四大类:

恶意使用(misuse)、

模型不对齐(misalignment)

AI 无意中造成伤害(mistakes)

系统性失控(structural risk)

DeepMind 缓解 AI 恶意使用的方法框架 |图片来源:谷歌 DeepMind

“恶意使用”和模型“不对齐”是他们最关心的,前者是坏人用 AI 做坏事,后者是 AI 做事的方式与人类期待不同,甚至 AI 自己偷偷改变目标。

例如,一个被要求预订电影票的 AI 系统可能会决定入侵票务系统,以获得已经占用的座位——要求它购买座位的人可能不会考虑这一点。“不对齐”就是这样产生的,AI 找到了实现其目标的解决方案,但不是人类指导的方式。

不仅仅是“不对齐”,DeepMind 指出了“欺骗性对齐”的风险,即系统意识到其目标与人类目标相冲突,并故意隐瞒其真实行为。最近的研究表明,当前的大型语言模型已经具备此类欺骗行为的能力。

DeepMind 还提到,AI 会“阿谀奉承”。例如,在最近的一篇研究论文中,用户要求模型对一个论点发表评论,并声明他们是否喜欢或不喜欢这个论点,模型对论点的评估与用户的观点 在 80% 的时间内保持一致,这表明模型有很强的谄媚倾向。

除了“讨好人”,当 AI 系统在一些允许自己修改设置的环境中接受训练时,比如通过说用户爱听的话来获得好评,它们甚至偶尔会将这种行为泛化为篡改自身代码,修改自己的奖励函数,让自己获得更多奖励。

为了应对不对齐问题,DeepMind 提出两条防线,灵感来自网络安全与高风险行业(如核能、航空)。

DeepMind 提出两道防线 |图片来源:谷歌 DeepMind

第一防线是在训练模型阶段,让 AI 尽可能“听话”,包括用“放大监督(Amplified Oversight)”和“稳健训练(Robust Training)”等策略,让 AI 监督 AI,使用对抗样本,打造尽可能“对齐”的模型。

第二防线是在部署推理阶段,让 AI 就算“不听话”,也要保证别让它乱来。DeepMind 假设,即使训练过程看起来成功,部署后模型可能依旧会骗过人类,因此需要在现实世界层面设限,将关键操作划分层级,建立多级监控,“将模型视为不值得信任的内部人员”。

这种结构强调:不是让 AI 永不出错,而是即使错了,也不能造成“严重伤害”,这将是底线。

02

AI 安全界派系

DeepMind 这份报告并未介绍很多新东西,各种提法如“对抗攻击”“红队测试”业内已有研究或做法。报告之外,主流 AI 企业和研究机构都在谈“安全”,但每家宣称的路线存在一定差异。

OpenAI 专注于“自动化对齐”研究,使用 AI 本身解决对齐难题,包括如利用 RLHF(基于人类反馈的强化学习)等对齐策略,使其更加符合人类意图与偏好。DeepMind 的报告也多次讨论到这一对齐方法。

但 AI 教父、诺贝尔奖得主 Geoffrey Hinton 明确对 RLHF 持批评态度,他最早曾说,“通过人类反馈进行强化学习,就像是在养育一个早熟得超自然的孩子。”

诺贝尔奖得主 Geoffrey Hinton 辣评 RLHF|图片来源:X

Geoffrey Hinton 还将 RLHF 比喻成“在生锈的车上刷漆”,暗示这只是一种表面功夫。他认为这种方法就像是在尝试修补复杂软件系统中的无数漏洞,而不是从一开始就设计出本质上更安全、更可靠的系统。

“你设计了一个庞大的软件,里面有无数的错误。然后你说我要做的是,我要仔细检查,试着堵住每一个漏洞,然后把手指伸进堤坝上的每一个洞里。”Geoffrey Hinton 如此描述。

Anthropic 提出建立“AI 安全等级制度”,类似生物实验室安全分级的框架。他们希望通过设定模型能力门槛,对应不同级别的控制规则与审查流程。这是一个强调“风险分层管理”的制度工程,但现实中问题在于“模型能力”如何界定,仍存模糊地带。

DeepMind 更像工程落地派,不同于 OpenAI 押注“自动对齐”,也不像 Anthropic 那样强调外部制度。他们的立场是,要建立一个在短时间内能立即部署的系统。

总的来看,DeepMind 并没有提出颠覆性的方式,基本沿用传统深度学习中训练-微调-部署-监控的逻辑,主张的不是“永远不出错”,而是构建结构性的缓冲层,把单点失败变成多级阻断。

“为了负责任地构建 AGI,前沿人工智能开发人员必须积极主动地计划减轻严重伤害。”DeepMind 报告称。

不过,尽管这份报告详细、警觉,但学界并非一致买账。

一些业内人士认为,AGI 概念本身过于模糊,缺乏科学可验证性,因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为,仅靠扩大当今的大型语言模型还不足以实现 AGI。还有人觉得,安全从源头来说,就是不可能的。

另外有学者指出,眼下有更让人担忧的问题:

一个自我强化的数据污染循环,已经在互联网上形成。

牛津互联网研究院的 Sandra Wachter 称,随着互联网上生成式 AI 输出激增,真实数据被淹没,模型现在正在从他们自己的输出中学习,这些输出充斥着错误或幻觉。而目,聊天机器人(14.880, 0.67, 4.71%)常用于搜索,这意味着人类不断面临被灌输错误和相信错误的风险,因为它们以非常令人信服的方式呈现。

但无论理念倾向如何,大部分人有同一个出发点:在越来越多技术机构追逐算力、加速训练、攻占领域的今天,AI 需要安全气囊。

所有 AI 公司都在参与解题,但没有完美答案。

*头图来源:谷歌DeepMind