清华大学:百度和智普AI的大语言模型在国内生成式AI排名领先

🤖 由 文心大模型 生成的文章摘要

根据清华大学最新一轮的评估,百度的Ernie Bot 4.0和初创公司智普AI的GLM-4在国内大语言模型(LLM)中名列前茅,但它们的国外竞争对手在整体能力方面仍然领先。

SuperBench评估报告研究了14个具有代表性的LLM,结果发现OpenAI的GPT-4和Anthropic的Claude-3等海外模型在多种能力方面名列前茅,包括语义理解、编码能力和与人类命令的一致性。

研究人员发现,国内模型和国外一流模型在现实世界环境中的代码编写和操作能力存在“明显差距”。

根据清华大学基础模型研究中心发布的微信帖子,该报告旨在“提供客观和科学的评估标准”,以检查最近出现的越来越多的LLM,该中心与国家支持的中关村实验室进行了评估。

自微软支持的美国初创公司OpenAI推出一系列由生成式AI提供支持的创新工具(包括ChatGPT和文本转视频服务Sora)以来,中国科技巨头和初创企业一直在竞相改进他们的LLM。

根据政府数据,中国已经推出了大约200个LLM,OpenAI的服务在中国正式不可用。

清华大学的报告呼应了阿里巴巴集团控股公司联合创始人兼董事长蔡崇信最近发表的评论,他表示,中国在全球人工智能竞赛中落后美国公司大约两年,并引用了OpenAI在人工智能创新方面如何超越其他科技行业。

本月早些时候生效的美国现行出口管制修订将使中国大陆更难获得先进的人工智能处理器和半导体制造设备。

尽管中国LLM开发者面临挑战,但清华大学的报告显示,网络搜索巨头百度推出的生成式AI聊天机器人的最新版本Ernie Bot 4.0和清华大学毕业生创立的初创公司智浦AI的GLM-4已经逐渐缩小了各自与全球最佳模型的整体性能差距。

测试发现,中国的LLM表现更好的领域是中文文本语言任务。初创公司Moonshot AI的Kimi聊天机器人、阿里巴巴的通义千问2.1、GLM-4和Ernie Bot 4.0在该类别中排名前四,尽管GPT-4在中文文本推理方面仍然排名第一。

Moonshot AI和智普AI,以及百川和MiniMax,在当地被称为中国的“AI四小虎”,因为它们是中国最有前途的生成式AI初创企业之一。

据其创始人称,智普AI成立于2019年,自去年以来已经筹集了25亿元人民币(3.47亿美元),投资方包括国有投资者、风险投资家和阿里巴巴、腾讯控股和美团等大型科技公司。

据多家中国媒体报道,同样总部位于北京的Moonshot AI在2月份的一轮融资中筹集了10亿美元。

本文转自外媒南华早报

「93913原创内容,转载请注明出处」