南方科技大学团队近期在始智AI wisemodel.cn开源社区发布的SUS-Chat-34B模型,2023-12-05在Huggingface的open_llm_leaderboard榜单上取得了同级别模型最好成绩。采用精细化的筛选方法,从上亿条指令文本数据中提炼出与模型能力最相关的数据子集;并加入类似人类思考过程的数据,如在回答问题时先分析问题、规划解决方案,使模型在指令对齐中学会了用类似人类的逻辑思维方式思考;最后还采用共享注意力机制,调整注意力权重的分配,让模型在处理连续对话轮次时,能够更准确地识别和保持对于先前轮次中重要信息的关注
北京智源人工智能研究院近期在始智AI wisemodel.cn开源社区Aquila2系列模型,包括34B和70B两个尺寸的模型,其中34B模型在10月已开源,包含了Chat模型的标准版和16K版本;70B模型是最近刚发布的异构训练实验版。虽然Aquila2-70B-Expr目前已经训练的英文数据量仅为LLama2-70B的大约三分之一,但是除了在MMLU上还落后于LLama2-70B,其他主要评测集上的表现已经超过了LLama2-70B。为支持多厂商异构算力合池训练,智源升级了FlagScale框架,实现了异构流水线并行及异构数据并行两种模式。实验证明,两种异构方案的实现均不影响70B模型的训练效率及模型性能。
东北大学知识图谱研究组近日在始智AI wisemodel.cn开源社区平台发布了功能更全、性能更好的TechGPT-2.0大模型。TechGPT-2.0延续了6月份发布的TechGPT-1.0以“知识图谱构建”与“智能问答”为核心的目标,在继承TechGPT-1.0全部功能的基础上,多项功能有所增强,同时也扩充了新功能。TechGPT-2.0是在TechGPT-1.0 基础上的改进版本,采用了采用全量微调方式,基于华为昇腾服务器(4机*8卡-32G 910A)和华为MindSpore框架进行训练。此次共发布两个7B版本的TechGPT-2.0模型,分别为TechGPT-2.0-Alpaca、TechGPT-2.0-Atom。TechGPT-2.0 较TechGPT-1.0 新加了许多领域知识,除了TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,还在医学、法律等领域文本处理上展现出优秀的能力,并扩充了对地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑等领域文本的处理能力。
✋热门推荐