DeepMind研发的DreamerV3在《我的世界》中取得重大突破,登上《Nature》

🤖 由 文心大模型 生成的文章摘要

谷歌DeepMind团队近日在人工智能领域取得了一项重大突破,其研发的人工智能系统DreamerV3在《我的世界》游戏中成功实现了无需人类数据辅助,通过强化学习与自主构建的“世界模型”,自主完成了钻石收集任务。这一成果标志着人工智能向通用人工智能(AGI)迈出了重要一步,相关研究论文已发表在《Nature》杂志上。​

《我的世界》作为一款全球知名的沙盒游戏,拥有庞大且复杂的开放式虚拟世界,为AI研究提供了极具挑战性的环境。游戏中,玩家需要通过一系列复杂操作来获取钻石,而每一次游戏场景都是随机生成的,包含各种地形地貌,如森林、山脉、沙漠和沼泽等,这对AI系统的适应性和策略规划能力提出了极高要求。此前,尽管包括OpenAI在内的多个团队都曾尝试让AI挑战《我的世界》,但在没有人类数据引导的情况下,AI难以完成收集钻石这类复杂任务。​

DeepMind的DreamerV3系统则另辟蹊径,它采用强化学习技术,通过不断在游戏中进行试错来探索所有可能的行动。在这个过程中,DreamerV3识别出那些能够带来奖励的动作,并不断重复这些动作,摒弃无效动作。而其成功的核心在于构建了“世界模型”。这个世界模型并非对游戏环境的精确复制,而是类似于人类的抽象思维,允许DreamerV3通过想象未来可能出现的情景来指导当下的决策,赋予了人工智能系统“想象未来”的能力。​

研究团队最初并非专为“钻石测试”而开发DreamerV3,在完成算法构建后,团队意识到这是检验算法能否在不熟悉任务中 “开箱即用” 的绝佳方式。在实验设置中,每当DreamerV3 完成钻石收集过程中的12个关键步骤之一,如制作木板、建造熔炉、开采铁矿并锻造铁镐等,就能获得一个“+1”的奖励。这些中间奖励激励DreamerV3选择更有可能获取钻石的行动。为防止AI适应特定游戏配置,研究团队每30分钟重置一次游戏,迫使DreamerV3学习通用规则。在这种设定下,DreamerV3经过连续约九天的“游戏”,成功找到了至少一颗钻石。相比之下,即使是经验丰富的人类 “高玩”,找到一颗钻石也通常需要20-30分钟,新手则耗时更久。​

DreamerV3算法由三个关键的神经网络组成:世界模型、评论家网络和行动者网络。世界模型通过自动编码学习感官输入的表示,并预测潜在动作的未来表示和奖励,以此实现规划;评论家网络对世界模型预测的每个结果进行价值判断,评估其对实现目标的帮助程度;行动者网络则依据评论家的判断,选择能达成最佳结果的行动。这三个网络相互协作,在智能体与环境交互过程中,通过重放经验同时进行训练。训练过程中,世界模型的学习尤为关键,它需最小化预测损失、动态损失和表示损失,从而从感官输入中提取有用信息,并准确预测未来状态和奖励。

「93913原创内容,转载请注明出处」