阿里推出数学专用AI模型,据称表现优于OpenAI和谷歌LLM

🤖 由 文心大模型 生成的文章摘要

阿里旨在通过推出一组名为Qwen2-Math的数学专用大型语言模型来提高人工智能开发的标准,其声称该模型可超越OpenAI GPT-4o。

阿里云计算部门Qwen团队在开发者平台GitHub发布帖子:“过去一年,我们投入了大量精力研究和增强大型语言模型的推理能力,特别关注其解决算术和数学问题的能力。”

Qwen2-Math建立在阿里6月发布的Qwen2的基础上,涵盖了基于参数规模的三种模型。参数是机器学习术语,指训练期间人工智能系统中存在的变量,有助于确定数据提示如何产生所需的输出。

根据Qwen团队帖子,参数数量最多的模型Qwen2-Math-72B-Instruct在数学基准测试中的表现优于美国开发的专有LLM,其中包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama -3.1-405B。

帖子写道:“我们希望Qwen2-Math能够为AI社区解决复杂的数学问题做出贡献。”

该帖子称,Qwen2-Math AI模型在英语和语文、数学基准上进行了测试。其中包括GSM8K,一个包含8500个高质量语言多样化小学数学问题的数据集;OlympiadBench,一个高水平双语多模态科学基准;以及高考内容。

通义千向第三方开发者开放已有一年多时间,开源让公众可以访问程序的源代码,允许第三方软件开发者修改或共享其设计、修复损坏的链接或扩展其功能。

7月,Qwen2-72B-Instruct在SuperClue LLM排名中仅次于GPT-4o和Claude 3.5 Sonnet。SuperClue是一个基准测试平台,根据计算、逻辑推理、编码和文本理解等指标对模型进行评估。

SuperClue称,中国和美国人工智能模型之间的差距似乎正在缩小,今年上半年,国内在推进LLM方面取得了重大进展。

美国加州大学伯克利分校支持的人工智能模型研究机构LMSYS于7月发布的另一项测试显示,Qwen2-72B排名第20位,OpenAI、Anthropic和谷歌的专有模型占据了前10名的大部分位置。

「93913原创内容,转载请注明出处」