人工神经元是深度神经网络的基本组成部分,现有的人工神经元用于GPT4等大型语言模型,其工作原理是接收大量输入,将它们相加,然后使用神经元内部的另一个数学运算将总和转换为输出。这些神经元的组合构成了神经网络,它们的组合工作可能难以解码。
但这种组合神经元的新方法略有不同。现有神经元的一些复杂性被简化,并转移到神经元之外。在神经元内部,新神经元只需将其输入相加并产生输出,而无需额外的隐藏操作。这种神经元的网络被称为柯尔莫哥洛夫-阿诺德网络(KAN)。
麻省理工学院研究人员领导的团队详细研究了这种简化方法,该方法可以让我们更容易理解神经网络产生特定输出的原因,帮助验证其决策,甚至探测偏差。初步证据还表明,随着KAN变得更大,其准确率的提高速度比由传统神经元构成的网络更快。
KAN的基本要素实际上是在20世纪90年代提出的,研究人员一直在构建此类网络的简单版本。但麻省理工学院领导的团队进一步推进了这一想法,展示了如何构建和训练更大的KAN,对它们进行实证测试,并分析了一些KAN,以证明人类可以如何解释它们的解决问题的能力。“我们重新激发了这个想法,”团队成员、麻省理工学院Max Tegmark实验室博士生Ziming Liu说。“并且,希望随着可解释性的出现……我们 [可能] 不再 [必须] 认为神经网络是黑匣子。”
虽然还处于早期阶段,但该团队在KAN方面的工作已引起人们的关注。GitHub页面已纷纷涌现,展示了如何将KAN用于各种应用,例如图像识别和解决流体动力学问题。
如今,几乎所有类型的人工智能,包括用于构建大型语言模型和图像识别系统的人工智能,都包含称为多层感知器(MLP)的子网络。在MLP中,人工神经元排列成密集、相互连接的“层”。每个神经元内部都有一个称为“激活函数”的东西——一种数学运算,它接收一堆输入并以某种预先指定的方式将它们转换为输出。
在MLP中,每个人工神经元都会接收来自上一层所有神经元的输入,并将每个输入与相应的“权重”(表示该输入重要性的数字)相乘。这些加权输入被加在一起,并馈送到神经元内部的激活函数以生成输出,然后将其传递给下一层中的神经元。例如,MLP通过为所有神经元的输入选择正确的权重值来学习区分猫和狗的图像。至关重要的是,激活函数是固定的,在训练期间不会改变。
经过训练后,MLP的所有神经元及其连接加在一起,本质上就像另一个函数,接受输入(例如,图像中的数万个像素)并产生所需的输出(例如,0表示猫,1表示狗)。了解该函数是什么样子,也就是它的数学形式,是理解它为什么会产生某些输出的重要部分。例如,为什么它会根据某人的财务状况将其标记为有信誉?但MLP是黑匣子。对于图像识别等复杂任务,对网络进行逆向工程几乎是不可能的。
“如果我们甚至无法解释来自神经网络的这些合成数据集,那么处理真实世界的数据集就毫无希望,”Ziming Liu表示,“我们发现很难理解这些神经网络,我们想改变架构。”
主要的变化是删除固定的激活函数并引入一个更简单的可学习函数来在每个输入进入神经元之前对其进行转换。
与MLP神经元中的激活函数接收大量输入不同,KAN神经元外部的每个简单函数接收一个数字并输出另一个数字。现在,在训练过程中,KAN不会像MLP中那样学习单个权重,而是学习如何表示每个简单函数。在今年发表在预印本服务器ArXiv上的一篇论文中,Liu和同事们表明,这些神经元外部的简单函数更容易解释,从而可以重建整个KAN正在学习的函数的数学形式。
Liu及其同事还表明,随着规模的扩大,KAN比MLP更快完成任务并变得更加准确。该团队从理论上证明了这一结果,并在科学相关任务(例如学习近似与物理相关的函数)中进行了实证研究。“目前尚不清楚这一观察结果是否会扩展到标准机器学习任务,但至少对于科学相关任务而言,它似乎很有前景。”