国内人工智能公司正在降低成本以创建具有竞争力的模型

🤖 由 文心大模型 生成的文章摘要

国内人工智能公司正在降低成本以创建具有竞争力的模型。零一万物和北京深度求索等初创公司通过采取一些策略来降低价格,例如专注于较小的数据集来训练人工智能模型,以及聘请该领域经验丰富的计算机工程师。

阿里、百度和字节跳动等大型科技集团也展开了价格战,以降低模型“推理”成本(即调用大型语言模型生成响应的价格),从而使价格下降了90%以上,仅为美国同行的一小部分。

零一万物由前谷歌中国区总裁李开复领导,该公司表示,通过构建以较少数据量进行训练、需要较少算力的模型并优化硬件,公司已经降低了模型推理成本。

李开复向英国《金融时报》表示:“中国的优势在于制造出真正价格实惠的推理引擎,然后让其应用广泛传播。”

本周,在加州大学伯克利分校发布的排名中,零一万物的Yi-Lightning模型与x.AI的Grok-2在LLM公司中并列第三,但落后于OpenAI和谷歌。

评估基于用户对不同模型对查询答案的评分。字节跳动、阿里和北京深度求索等其他中国公司也在LLM排名榜上名列前茅。

Yi-Lightning的推理成本为每百万代币14美分,而OpenAI的较小模型GPT o1-mini的推理成本为26美分。与此同时,OpenAI规模更大的GPT 4o的推理成本为每百万代币4.40美元,用于生成响应的代币数量取决于查询的复杂性。

李开复还表示,Yi-Lightning的“预训练”成本为300万美元,初始模型训练之后可以针对不同用例进行微调或定制。这只是OpenAI等公司对其大型模型所报成本的一小部分,他补充,其目标不是拥有“最佳模型”,而是一个具有竞争力的模型,开发者使用它来构建应用的成本“要低5到10倍”。

目前,零一万物、北京深度求索、上海稀宇科技、上海阶跃星辰等许多中国人工智能公司都采用了“专家模型”方法,这一策略首先由美国研究人员推广。

该方法不是在从互联网和其他来源抓取数据的庞大数据库上一次性训练一个“密集模型”,而是结合了许多针对行业特定数据进行训练的神经网络。

研究人员认为,专家模型方法是实现与密集模型相同智能水平但算力较低的关键方法。但这种方法更容易失败,因为工程师必须协调多个“专家”的训练过程,而不是在一个模型中。

由于难以获得稳定充足的高端人工智能芯片供应,国内人工智能企业在过去一年中一直在竞相开发最高质量的数据集,以训练这些“专家”,旨在从竞争中脱颖而出。

李表示,零一万物的数据收集方法超越了传统的互联网抓取方法,包括扫描书籍和抓取通讯应用微信上的文章,而这些在开放网络上是无法访问的。

他说,工程师对数据进行标记和排序“需要做很多吃力不讨好的工作”,“中国的优势不在于在预算不受限制的情况下,进行前所未有的突破性研究。中国模型的优势在于更好、更快、更可靠、更平价。”

「93913原创内容,转载请注明出处」