微软在其Phi-3.5系列中推出了三个新的开源AI模型:Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct。这些模型在宽松的MIT许可下可用,为开发人员提供各种任务的工具,包括推理、多语言处理以及图像和视频分析。
Phi-3.5-mini-instruct模型拥有38.2亿个参数,针对基本和快速推理任务进行了优化。该模型专为在内存和计算受限的环境中运行而设计,因此非常适合代码生成、数学问题解决和基于逻辑的推理任务。尽管Phi-3.5-mini-instruct的尺寸相对较小,但在RepoQA等基准测试(用于测量长上下文代码理解)上,其表现优于Meta的Llama-3.1-8B-instruct和Mistral-7B-instruct等大型模型。
Phi-3.5-MoE-instruct模型拥有419亿个参数,这使其能够根据输入激活不同的参数,从而处理更复杂的推理任务。MoE模型在各种基准测试中的表现均优于谷歌Gemini 1.5 Flash等规模更大的同类模型,展现了其先进的推理能力。这使其成为需要深度、情境感知理解和决策的应用程序的强大工具。
Phi-3.5-vision-instruct模型拥有41.5亿个参数,集成了文本和图像处理功能。这种多模态方法使其能够处理各种任务,包括图像理解、光学字符识别和视频摘要。由于支持128K标记上下文长度,特别擅长处理复杂的多帧视觉任务。Phi-3.5-vision-instruct模型在合成数据集和公开数据集上进行训练,专门用于TextVQA和ScienceQA等任务,提供高质量的视觉分析。
Phi-3.5系列的三款模型都拥有强大的训练背景。Phi-3.5-mini-instruct使用512个H100-80G GPU在10天内对3.4万亿个token进行了训练。Phi-3.5-MoE-instruct模型需要更长的训练时间,在相同数量的GPU下,在23天内处理了4.9万亿个token。Phi-3.5-vision-instruct模型使用256个A100-80G GPU在6天内对5000亿个token进行了训练。这些广泛的训练过程使 Phi-3.5模型在众多基准测试中取得了优异的表现,在许多场景中往往超越了其他领先的AI 模型,包括OpenAI GPT-4o。
这些基准测试结果展示了Phi-3.5模型(尤其是Phi-3.5 mini)与其他领先AI模型(如Mistral、Llama和Gemini)在不同任务中的比较情况。数据突出了Phi-3.5模型在从一般推理到更具体的问题解决场景等任务中的有效性。