🤖 由 文心大模型 生成的文章摘要
去年2月当谷歌人工智能聊天机器人Bard声称韦伯太空望远镜已经拍摄了第一张太阳系外行星的图像,但事实并非如此。当普渡大学研究人员向ChatGPT提出500多个编程问题时,超过一半的回答是不准确的。
为此专家担心,随着模型越来越大,回答的问题也越来越复杂,人工智能所具备的专业知识最终将超越大多数人类用户。如果这样的“超人”系统真的出现了,我们怎么能相信它们说的话?“关键在于你试图解决的问题超出了你的实际能力,”,纽约大学数据科学中心的计算机科学家朱利安·迈克尔表示,“如何监督一个系统成功完成你无法执行的任务?”
而如果让两个大型模型辩论给定问题的答案,留下一个更简单的模型(或人类)来识别更准确的答案。从理论上讲,这个过程允许两个智能体相互挑剔对方的论点,直到掌握足够的信息来辨别真相。
构建值得信赖的人工智能系统是更大目标的一部分,即“协调一致”,其重点是确保人工智能系统与人类用户具有相同的价值观和目标。如今,“协调一致”依赖于人类反馈——人类评判人工智能,但人类反馈可能很快就不足以确保系统的准确性。近年来,研究人员越来越多呼吁采用“可扩展监督”的新方法,这是一种确保真相的方法,即使超人系统执行人类无法执行的任务也是如此。
多年来,计算机科学家一直在思考可扩展的监督。在LLM变得如此庞大和普遍之前,2018年,人们开始争论一种可能性方法,该方法的创始人之一是杰弗里·欧文,他现在是英国人工智能安全研究所的首席科学家。杰弗里于2017年加入OpenAI,两年后该公司发布了GPT-2,这是最早受到广泛关注的LLM之一。杰弗里希望最终致力于将人工智能系统与人类目标相结合,“试图问问人类他们想要什么,然后让模型去做。”
「93913原创内容,转载请注明出处」