🤖 由 文心大模型 生成的文章摘要
3月21日,腾讯宣布推出自研深度思考模型“混元T1”正式版,并同步在腾讯云官网上线。该模型以腾讯于3月初发布的“混元Turbo S”为基座打造,是一款能秒回、吐字快、擅长超长文处理的强推理模型。
通过大规模强化学习并结合专项优化,混元T1正式版进一步提升了推理能力。与此前已上线腾讯元宝的 “混元 T1-preview”模型相比,综合效果明显提升。在体现推理模型基础能力的常见 Benchmark上,以及在中英文知识竞赛级数学、逻辑推理的公开基准测试中,混元T1的成绩达到业界领先推理模型的水平。此外,T1还在多项对齐任务、指令跟随任务和工具利用任务中展现出了非常强的适应性。
混元T1正式版沿用了混元Turbo S的创新架构,采用Hybrid-Mamba-Transformer融合模式。这是工业界首次将混合Mamba架构无损应用于超大型推理模型。这一架构有效降低了传统 Transformer结构的计算复杂度,减少了KV-Cache(一种大模型推理性能优化技术)的内存占用,从而显著降低了训练和推理成本,让混元T1实现首字秒出,吐字速度最快可达80 tokens/s(Token意为处理文本的最小单元)。
混元T1在超长文本推理领域也展现出独特优势,能够有效解决长文推理中常见的上下文丢失和长距离信息依赖问题。同时,混合Mamba架构针对长序列处理进行了专项优化,提升了解码速度。
目前,混元T1已在腾讯云官网上线,输入价格为1元/每百万tokens,输出价格为4元/百万tokens。
「93913原创内容,转载请注明出处」