块扩展会成为微调的新范式吗?腾讯ARC实验室最新开源的Mistral-Pro系列模型已经发布在始智AI wisemodel.cn开源社区。Mistral-Pro模型是在Mistral-7B模型的基础上,通过Decoder块扩展的方法,提升的Mistral的代码和数学性能,综合性能与谷歌最新开源的Gemma相当。MetaMath-Mistral-Pro继续基于Mistral-Pro模型进行数学领域的SFT微调,在数学相关的评测集上取得SOTA性能。Mistral-Pro模型将Mistral从32层添加8层扩展到40层,保持原来32层的参数不变,对新增加的层进行训练。新增加的层通过特定的初始化方式初始为恒等层,即添加前后输出不变。然后在代码和数学数据集上进行继续预训练,训练的数据集包括Proof-Pile-2,the-stack-dedup,AutoMathText以及CosmoPedia,均是与代码、数学相关的预训练数据集。
Jina AI发布的中英多语种8K开源向量模型jina-embeddings-v2,基于JinaBert架构,支持中英双语映射到同一个向量空间,实现不同语言文本的无缝处理,支持多语言应用的构建。完全开源,中英文模型均已经发布在始智AI wisemodel.cn社区。jina-embeddings-v2 在文本分类任务、检索任务、检索重排任务、和文本摘要任务上的得分都超过了 text-embedding-ada-002。Jina Embeddings v2 系列模型在 MTEB 排行榜上,在文本分类、检索、重排、摘要等任务上均有优势。并且输出和 OpenAI 完全一致,是 OpenAI ada 002 模型的理想替代开源解决方案。
利用大模型的生成能力构建 AI 角色,从而丰富动漫角色、游戏NPC、甚至复活历史人物等,已经成为一个大的市场。然而,大部分模型的表现往往过于刻板、僵硬,很难构建具有个性和风格化的生成角色,随着对话轮次的增加,回复也会偏离最初的设定,难以和人们建立深层的情绪连接。基于对上述问题的思考以及对大模型的深入研究,清华 CoAI团队、聆心智能团队、GLM 技术团队提出 CharacterGLM,参数大小从 6B 到 66B,它是专门用于定制中文AI角色的模型,使用门槛更低,模型表现更好。CharacterGLM已经开源并发布在始智AI wisemodel.cn开源社区平台。CharacterGLM 能够平衡角色一致性、拟人化和吸引力三个关键维度,是最接近理想AI角色的模型。CharacterGLM 的整体表现优于大多数基准模型,能够在生成高质量、内容安全和知识正确的回复上表现出优越的性能。
✋热门推荐