近日,蚂蚁集团在人工智能领域取得重大突破。由集团CTO、平台技术事业群总裁何征宇带领的Ling Team团队,成功开发出两个百灵系列开源MoE(混合专家模型)模型——Ling – Lite和Ling – Plus。其中,Ling – Lite参数规模为 168 亿,而 Ling – Plus 的基座模型参数规模更是高达2900亿。这一成果在AI行业引发广泛关注,对比当下热门模型,AI行业估计GPT – 4.5参数量为1.8万亿,DeepSeek – R1参数规模达6710亿,蚂蚁集团的新模型在参数规模上已具备相当的竞争力。
值得一提的是,蚂蚁团队在模型预训练阶段展现出卓越的成本控制能力。他们创新性地使用较低规格的硬件系统,成功将计算成本降低约20%,最终计算成本仅为508万元人民币。而在性能方面,经过严格测试,该模型实现了与阿里通义Qwen2.5 – 72B – Instruct和DeepSeek – V2.5 – 1210 – Chat相当的水平。目前,相关技术成果论文已发表在预印版Arxiv平台上,向全球科研人员展示了蚂蚁集团在 AI 领域的深厚技术积累和创新能力。
根据彭博社消息,该模型在训练阶段使用的是国产AI/GPGPU芯片产品,并非完全依赖英伟达芯片,却获得了与英伟达芯片(如H800)相似的结果。这不仅证明了国产芯片在AI计算领域的实力,也为国内AI产业的发展注入了一针强心剂。
这是蚂蚁集团首次全面且详细地披露其在 AI 算力层面的进展。一直以来,大语言模型的发展迅猛,特别是 DeepSeek 引发的热潮,使得学界和业界对通用人工智能(AGI)展开了广泛且深入的讨论。其中,混合专家(MoE)模型在特定任务中展现出优异性能,但因其训练高度依赖高性能计算资源,导致成本居高不下,这极大地限制了其在资源受限环境中的推广应用。
蚂蚁Ling团队深入分析行业现状后认为,尽管 MoE 模型训练对高性能 AI 芯片(如 H100 和 H800)需求巨大,且资源供应存在一定挑战,但低性能加速器反而更易获取,并且从单位成本效益来看颇具优势。因此,研发一款能够在异构计算单元和分布式集群间灵活切换的技术框架成为当务之急。同时,在 AI Infra 部分,团队着重在跨集群、跨设备的兼容和可靠性层面进行性能优化,明确设定了 “不使用高级 GPU” 来扩展模型的目标。
在具体实践过程中,蚂蚁 Ling 团队在模型训练的各个关键环节,包括训练环境、优化策略、基础设施、训练过程、评估结果以及推理等方面,都进行了全面且深入的优化与落地实施。
预训练层面堪称整个模型研发的基石,蚂蚁团队在此投入了大量精力并取得了显著成果。他们精心构建了规模约9万亿token的高质量语料库,为模型的学习提供了丰富且优质的素材。在架构设计上,采用了创新的MoE架构,并通过严谨的分析缩放规律来精准确定超参数,同时采用多阶段训练策略,有效应对训练过程中出现的瞬时尖峰问题。此外,团队通过优化模型架构和训练策略,如选择匹配架构、集成训练框架、开发XPUTimer和EDiT策略等,大幅提高了训练效率。