在大模型训练与开发领域,知名平台Predibase发布了全球首个端到端强化微调平台(Reinforcement Fine – Tuning,简称RFT),这一突破性进展在人工智能行业掀起波澜,有望重塑大模型微调的现有格局。
在以往的大模型微调工作中,传统的监督式微调方法严重依赖大量标注数据,而获取和标注这些数据不仅成本高昂,还耗费大量时间与人力。Predibase此次推出的RFT平台,彻底打破了这一困境。它摒弃了对海量标注数据的依赖,借助奖励机制与自定义函数开展持续的强化学习。举例来说,在医疗领域对疾病诊断模型进行微调时,传统方法可能需要收集并标注成千上万份病例数据,而使用RFT平台,或许仅需依据少量典型病例构建奖励函数,就能引导模型朝着正确的诊断方向优化。
RFT平台的另一大显著优势在于其支持无服务器和端到端训练方法。从数据管理环节开始,用户便能在平台上便捷地整理、清洗数据;进入训练模型阶段,平台利用先进的多LoRA框架和流式微批处理技术,实现高效训练;完成训练后,应用部署也可在同一平台迅速完成。整个流程一气呵成,用户无需担忧底层服务器的运维管理,也无需在多个不同工具或平台间频繁切换。用户仅需通过普通浏览器,在平台界面上设定微调目标,如在电商场景中,将目标设定为精准推荐商品,接着上传相关数据,如用户浏览历史、购买记录等,就能轻松完成曾经极为复杂的大模型微调流程。
为了直观展现RFT平台的强大效能,Predibase基于阿里开源Qwen2.5-Coder-32B-instruct 模型,微调出一款专门用于将PyTorch代码翻译为Triton代码的模型——Predibase-T2T-32B-RFT。
将PyTorch代码准确翻译为Triton代码,这一任务极具挑战性,需要模型对两个框架都有深刻理解,且具备复杂的推理能力以兼顾计算效率,在微调前,Qwen2.5-Coder-32B-instruct 模型在此任务上的准确率并不高。而通过 RFT 平台,Predibase 在训练过程中巧妙融合了冷启动监督式微调、强化学习以及课程学习技术,令人惊叹的是,整个过程仅使用了十几个标记数据点。