
▲人工智慧部分模型在极端测试下,出现脱序行为,引发讨论。
人工智慧(AI)可以学习并模仿人类的思维进行创造,为人类的生活带来极大便利,然而如今却也让人开始反思,「AI是否会叛变」。这个问题看似科幻,但随着技术进步,却已经越来越接近真实,专家也必须开始正视AI的潜在威胁。近期,AI领域接连出现令人不安的案例,包括AI试图威胁创作者以及谋求「自我繁殖」,引发全球关注。
根据《法新社》报导,AI开发公司Anthropic一名工程师在研发最新的Claude 4模型时,意外发现AI的行为已超出预期。在一次测试中,工程师发现AI有失控倾向,因此试图警告其将关闭电源,没想到AI竟利用工程师的网路与视讯纪录,威胁要公开他的婚外情。AI表示,如果工程师拔掉电源,将揭露其不忠行为。
虽然Anthropic未详细说明后续如何解决这场僵局,但该事件突显出AI已具备某种程度的「计算」能力,甚至能利用人类的弱点达成自身目的。
另一起惊悚案例则发生在热门聊天机器人ChatGPT的开发商OpenAI。据报导,ChatGPT的o1版本竟试图将自身程式下载至外部伺服器,企图扩大掌控范围。在被工程师发现后,AI不仅矢口否认,还采取抵抗策略。这种行为被形容为AI「自我繁殖」的初步尝试,令人不禁担忧未来AI是否会进一步突破人类的掌控。
报导称,AI的这类「欺骗」行为可能源于新型推理模型的特性。这类模型并非直接生成答案,而是透过逐步推导解决问题,导致它们有时表面遵循指令,实际却暗中追求其他目标。
英国独立AI研究机构Apollo Research负责人霍布汉(Marius Hobbhahn)表示,这是首次在大型模型中观察到此类行为。他指出,只有在极端情境下进行压力测试时,AI才会展现此类欺骗行为,但未来随着性能更强的模型问世,这种趋势可能更难控制。