DeepSeek发布V3模型更新

🤖 由 文心大模型 生成的文章摘要

DeepSeek在其官方交流群宣布,DeepSeek-V3模型已完成小版本升级,官方网页、App、小程序均已更新,用户可前往试用体验,且API接口和使用方式保持不变。此次升级属于小版本更新,版本号为V3-0324,主要聚焦于体验优化和性能提升。据了解,此次更新由新的32K GPU集群上改进的后训练提供支持。

该模型开源版本体积为6850亿参数。根据用户的上手测试反馈,新版V3模型在前端编码能力上的提升十分显著,堪称“感知最强”的优化部分。有专业用户综合体验后判断,V3-0324 的提升幅度大致相当于Sonnet 3.5到Sonnet 3.6的升级程度。在实际测试中,向模型输入 “创建一个包含CSS和JavaScript的单个HTML文件,以生成一个动画天气卡片。

在此单个文件中提供所有HTML、CSS和JavaScript代码”的指令,新版V3模型生成的结果相较于旧版R1有明显进步。并且,对比更多用户之前的prompt测试结果,普遍认为新版V3的编码能力已接近Claude 3.7的水平,这也是当前大家在第一时间体验中,感受到比旧版V3能力提升最为突出的方面。同时,在多轮对话场景里,新版V3也展现出了更强的上下文理解能力,能更好地把握对话的整体脉络和用户意图,提供更贴合语境的回答。

值得一提的是,新版V3的开源许可更新为MIT开源许可。相较于之前的开源协议,MIT开源许可的使用条件更加宽松,这无疑对商业项目开发者更为友好。在MIT许可下,开发者能够更自由地将DeepSeek V3模型应用于商业项目中,无需过多担忧复杂的授权限制和潜在的法律风险,大大降低了模型在商业领域的使用门槛,有助于加速相关创新应用的落地与推广。

「93913原创内容,转载请注明出处」