在人工智能(AI)蓬勃发展的当下,AI边缘设备在物联网、智能监控、自动驾驶等诸多领域的应用日益广泛,其重要性愈发凸显。相较于传统基于冯・诺依曼架构的计算处理器,AI边缘设备被赋予了更高的要求,不仅要具备更高的计算精度,还需实现低功耗、高能效,同时拥有快速的唤醒响应时间。
近期,台积电张孟凡团队取得了一项突破性成果,在顶尖学术期刊《Nature》上发表了题为 “A mixed-precision memristor and SRAM compute-in-memory AI processor”的论文。该团队成功提出了一种混合精度异质计算内存(CIM)AI 边缘处理器,这一创新设计犹如一把钥匙,为解决当前AI边缘设备面临的难题提供了全新的技术路径。
此款处理器极具创新性,它巧妙地结合了忆阻器CIM、SRAM-CIM和数字单元CIM架构。通过层级和内核级别的INT与FP混合模式配置,达成了计算精度、能效、存储容量和唤醒响应时间的优化。其独特之处在于,能够依据每一层对误差的敏感性,自适应地挑选不同的计算模式和存储结构。举例来说,对于对误差较为敏感的网络层,采用精度更高的计算模式和存储结构;而对于误差容忍度较高的层,则选择能效更高的配置,从而大幅提升了边缘处理器的综合性能。
为了进一步提升处理器的灵活性与适应性,研究人员还精心设计了一种基于层的INT-FP混合模式控制器。该控制器如同处理器的“智能管家”,能够对处理器的计算精度与能效进行有效管理,根据不同的任务需求和工作场景,灵活调整计算模式和资源分配,让处理器始终处于最佳工作状态。
在实际测试中,该团队的创新设计展现出了卓越的性能。在多个经典神经网络,如 ResNet-20 和 MobileNet-v2 上,均取得了显著的性能提升。能效方面,达到了每瓦 40.91 TFLOPS,如此高的能效比意味着在相同功耗下,能够完成更多的计算任务,大大降低了能源消耗。同时,精度降级低于 0.45%,这表明在提升能效的同时,依然很好地维持了计算精度,保证了 AI 任务处理的准确性。
该处理器采用了工业级22纳米忆阻器和SRAM 技术,这使得其不仅在性能上表现卓越,还具备了在实际应用中的可行性与验证基础,为未来大规模生产和应用奠定了坚实基础。这一创新成果展示了异质计算架构在AI边缘设备中的巨大潜力,预计在未来,它将在智能物联网、移动设备和边缘计算等领域发挥重要作用,有力推动边缘计算设备在复杂推理任务中的广泛应用,为相关产业的发展注入新的强大动力。