麻省理工学院研究人员开发出一种训练更可靠人工智能代理的有效方法

🤖 由文心大模型生成的文章摘要

从机器人技术到医学再到政治学，各个领域都在尝试训练人工智能系统做出各种有意义的决策。例如，使用人工智能系统智能控制拥堵城市的交通可以帮助驾车者更快到达目的地，同时提高安全性或可持续性。

强化学习模型是AI决策系统的基础，但在面对其所训练任务的微小变化时，AI决定可能会失败。以交通为例，模型可能难以控制一组具有不同速度限制、车道数量或交通模式的交叉路口。

为了提高强化学习模型对于具有多变性的复杂任务的可靠性，麻省理工学院的研究人员引入了一种更有效的算法来训练。

该算法策略性选择最佳任务来训练AI代理，以便能够有效执行相关任务集合中的所有任务。在交通信号控制的情况下，每个任务可能是包含城市所有交叉路口任务空间中的一个交叉路口。

通过关注对算法整体有效性贡献最大的较少数量的交叉点，该方法可最大限度提高性能，同时保持较低的训练成本。

研究人员发现，在一系列模拟任务中，该技术比标准方法效率高出5到50倍。效率的提高有助于算法以更快的方式学习更好的解决方案，最终提高AI代理的性能。

为了训练一种算法来控制城市中许多路口的交通信号灯，工程师通常会在两种主要方法之间做出选择。可为每个路口单独训练一种算法，只使用该路口的数据，或者使用来自所有路口的数据训练一个更大的算法，然后将其应用于每个路口。

「93913原创内容，转载请注明出处」

相关文章