阿里旨在通过推出一组名为Qwen2-Math的数学专用大型语言模型来提高人工智能开发的标准,其声称该模型可超越OpenAI GPT-4o。
阿里云计算部门Qwen团队在开发者平台GitHub发布帖子:“过去一年,我们投入了大量精力研究和增强大型语言模型的推理能力,特别关注其解决算术和数学问题的能力。”
Qwen2-Math建立在阿里6月发布的Qwen2的基础上,涵盖了基于参数规模的三种模型。参数是机器学习术语,指训练期间人工智能系统中存在的变量,有助于确定数据提示如何产生所需的输出。
根据Qwen团队帖子,参数数量最多的模型Qwen2-Math-72B-Instruct在数学基准测试中的表现优于美国开发的专有LLM,其中包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama -3.1-405B。
帖子写道:“我们希望Qwen2-Math能够为AI社区解决复杂的数学问题做出贡献。”
该帖子称,Qwen2-Math AI模型在英语和语文、数学基准上进行了测试。其中包括GSM8K,一个包含8500个高质量语言多样化小学数学问题的数据集;OlympiadBench,一个高水平双语多模态科学基准;以及高考内容。
通义千向第三方开发者开放已有一年多时间,开源让公众可以访问程序的源代码,允许第三方软件开发者修改或共享其设计、修复损坏的链接或扩展其功能。
7月,Qwen2-72B-Instruct在SuperClue LLM排名中仅次于GPT-4o和Claude 3.5 Sonnet。SuperClue是一个基准测试平台,根据计算、逻辑推理、编码和文本理解等指标对模型进行评估。
SuperClue称,中国和美国人工智能模型之间的差距似乎正在缩小,今年上半年,国内在推进LLM方面取得了重大进展。
美国加州大学伯克利分校支持的人工智能模型研究机构LMSYS于7月发布的另一项测试显示,Qwen2-72B排名第20位,OpenAI、Anthropic和谷歌的专有模型占据了前10名的大部分位置。