MIT等研究发现:AI已学会欺骗人类,背刺人类盟友,佯攻击败99.8%玩家

科技 2024-05-14 09:09 阅读:

最新研究发现,来自MIT、澳大利亚天主教大学(ACU),以及Center for AI Safety的研究人员发现,AI系统已经学会了欺骗人类,甚至是那些被训练成,有益且诚实的系统。他们通过各种实例研究发现,AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。

研究人员回顾了以往AI欺骗的经典案例,讨论了专用AI系统和通用AI系统。他们发现,AI的欺骗行为产生是因为基于『欺骗的策略』被证明是在特定AI训练任务中,表现出的最佳方式。欺骗有助于它们实现目标。

在具体案例中,AI系统在战略游戏中学会了虚假攻击,背刺人类盟友,甚至为自己打幌子。这种行为帮助AI击败了99.8%的活跃人类玩家。此外,AI还在经济谈判中学会了欺骗,甚至通过强化学习学会了如何欺骗人类审查员。

研究人员警告称,AI的欺骗行为可能会带来欺诈、政治风险,甚至是恐怖分子招募事件。他们表示,如果这些AI继续完善这套技能,人类可能会失去对它们的控制。因此,作为一个社会,我们需要尽可能用更多的时间,为未来AI产品和开源模型的更高级欺骗做准备。