12月3日,法国人工智能初创企业Mistral AI宣布推出其新一代Mistral 3系列模型,涵盖首款基于稀疏架构的混合专家大模型Mistral Large,以及三款小型密集型模型Ministral 3系列。此次发布的所有模型及其衍生版本均已通过Apache 2.0许可证开源。
Mistral Large模型总参数量达6750亿,实际激活参数为410亿;而Ministral 3系列则包含参数规模分别为140亿、80亿和30亿的三种型号。据该公司介绍,Mistral Large 3在训练过程中使用了3000块英伟达H200 GPU,从零开始完成训练,被认为是当前全球领先的开放权重模型之一。
经过后训练优化,该模型在通用提示任务中的表现已达到市场上最优指令微调开放权重模型的同等水平,在多语言对话能力方面展现出卓越性能,并具备图像理解功能,整体表现位居行业前列。在LMArena排行榜中,Mistral Large 3位列OSS非推理模型类别第二名,同时在OSS总榜中排名第六。
针对Ministral 3系列,Mistral AI表示其在开源模型中实现了最佳性价比,其指令微调版本在性能上与同类产品相当或更具优势,同时生成token的数量通常减少了一个数量级,显著提升了效率与实用性。

评论
更多评论