... 这位老哥 玩的6, https://t.cn/A6TXLWj7 distributed-llama这个项目基于llama2.c 修改成分布式推理; llama2 模型训练好的超大的权重参数在cpu低端机器上也可以推理(将计算推理以分布式分发给其他worker节点进行GEMM运算,最终主机将worker的计算结果整合,然后返回);
以前用docker一键搭建了把完了下,提了一个pr: https://t.cn/A6TXLWjZ 仅用来测试下,非 feat ;
过了一段时间,今天重新看了下pr, 发现作者支持Grok-1 (314 B参数,混合专家模型MoE结构),因为权重参数量大,文件很多,一般玩家很难run起来; 作者将其量化Q40权重文件有180G, 对其进行分布式推理,分别在 4 x 16 vCPU, 64 GB RAM (4 x Google Cloud n2d-standard-16) 和 2 x c3d-highcpu-90 (90 vCPU, 45 core, 177 GB memory) 上测试,
代码详情见mr地址:https://t.cn/A6TXLWjw
主要用到cpu向量化进行GEMM元素加速,权重分发到worker内存中进行推理
PS: 自己跑了下llama2 分布式模式, 貌似在多线程上有些问题,有时间再check下;
目的: 这个可以作为超大模型在分布式急群中cpu上进行分布式推理的参考方案demo,模型结构:llama2 和 MoE
以前用docker一键搭建了把完了下,提了一个pr: https://t.cn/A6TXLWjZ 仅用来测试下,非 feat ;
过了一段时间,今天重新看了下pr, 发现作者支持Grok-1 (314 B参数,混合专家模型MoE结构),因为权重参数量大,文件很多,一般玩家很难run起来; 作者将其量化Q40权重文件有180G, 对其进行分布式推理,分别在 4 x 16 vCPU, 64 GB RAM (4 x Google Cloud n2d-standard-16) 和 2 x c3d-highcpu-90 (90 vCPU, 45 core, 177 GB memory) 上测试,
代码详情见mr地址:https://t.cn/A6TXLWjw
主要用到cpu向量化进行GEMM元素加速,权重分发到worker内存中进行推理
PS: 自己跑了下llama2 分布式模式, 貌似在多线程上有些问题,有时间再check下;
目的: 这个可以作为超大模型在分布式急群中cpu上进行分布式推理的参考方案demo,模型结构:llama2 和 MoE
澜舟科技的Mengzi3-13B正式开源发布在始智AI wisemodel.cn开源社区平台,对学术研究完全开放,同时支持免费商用。Mengzi3-13B模型基于Llama架构,语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。在参数量20B以内的轻量化大模型领域,Mengzi3-13B在中英文语言能力方面的成绩尤为突出,具备了出色的实用性和高性价比,能更好的满足企业的商业化需求。
#模型时代# 微调和RAG,企业使用大模型的两条路线。
两天前,OpenAI推出了一系列面向开发者的优化功能,目的是帮助更多企业机构,针对其行业、业务或特定用例,做模型微调,进而定制模型。
紧接着,黄仁勋投资的另一家AI公司Cohere(创始人Aidan Gomez是Transformer论文的八名作者之一)也宣布升级它们的技术Command R+(链接:https://t.cn/A6TJBHcT),一款针对检索增强生成 (RAG) 优化的模型,专为处理企业级负载而设计,并首发于Microsoft Azure。
题外话,不得不说微软是这一轮大模型的关键投资者和收割者,在消费者尝鲜ChatGPT之后,大模型的富矿必然是企业级用户。微软的Azure在这方面比起Google Cloud有更大的优势。简单科普一下微调和RAG。
***
1、微调
微调是指对预先训练好的大语言模型进行参数调整,使它在特定领域或任务中更专业。微调只需要更小的特定数据做训练就可以,所以所需要的计算密集度比较低,不过如果从某个开源模型,比如Meta的Llama 2,还是需要大量计算资源。简单来说,就是训练一个
2、RAG
RAG是为模型提供了检索能力。大家都知道大模型经常会出现幻觉,这对消费者来说问题不是太大,但是对于企业经营(也包括科研),问题就很严重。所以RAG可以让模型检查既有的,有准确信息的数据集,查找结合上下文的事实信息。然后再讲信息输入模型,再综合生成结果。
3、区别
微调模型,只要调整训练好了,用起来和既有大模型一样,只不过它是通过专业数据训练出来的,所以比通用模型更懂行。而且既然是训练好了的模型,所以反馈时延性能也不错(计算资源都在训练阶段)。RAG效率要低一些,因为工作要分为两步,一步是检索(推理阶段也需要额外的计算资源),一步是生成。但是,如果场景追求信息的准确性,RAG 就好于微调,毕竟有一个数据库做支持。
4、场景
因此,Command R+ 的介绍文案中,关键词就是性能(图),其次是提高准确性,减少幻觉信息。目前Cohere主打的场景是财务、人力资源、销售、营销和客户支持等。
两天前,OpenAI推出了一系列面向开发者的优化功能,目的是帮助更多企业机构,针对其行业、业务或特定用例,做模型微调,进而定制模型。
紧接着,黄仁勋投资的另一家AI公司Cohere(创始人Aidan Gomez是Transformer论文的八名作者之一)也宣布升级它们的技术Command R+(链接:https://t.cn/A6TJBHcT),一款针对检索增强生成 (RAG) 优化的模型,专为处理企业级负载而设计,并首发于Microsoft Azure。
题外话,不得不说微软是这一轮大模型的关键投资者和收割者,在消费者尝鲜ChatGPT之后,大模型的富矿必然是企业级用户。微软的Azure在这方面比起Google Cloud有更大的优势。简单科普一下微调和RAG。
***
1、微调
微调是指对预先训练好的大语言模型进行参数调整,使它在特定领域或任务中更专业。微调只需要更小的特定数据做训练就可以,所以所需要的计算密集度比较低,不过如果从某个开源模型,比如Meta的Llama 2,还是需要大量计算资源。简单来说,就是训练一个
2、RAG
RAG是为模型提供了检索能力。大家都知道大模型经常会出现幻觉,这对消费者来说问题不是太大,但是对于企业经营(也包括科研),问题就很严重。所以RAG可以让模型检查既有的,有准确信息的数据集,查找结合上下文的事实信息。然后再讲信息输入模型,再综合生成结果。
3、区别
微调模型,只要调整训练好了,用起来和既有大模型一样,只不过它是通过专业数据训练出来的,所以比通用模型更懂行。而且既然是训练好了的模型,所以反馈时延性能也不错(计算资源都在训练阶段)。RAG效率要低一些,因为工作要分为两步,一步是检索(推理阶段也需要额外的计算资源),一步是生成。但是,如果场景追求信息的准确性,RAG 就好于微调,毕竟有一个数据库做支持。
4、场景
因此,Command R+ 的介绍文案中,关键词就是性能(图),其次是提高准确性,减少幻觉信息。目前Cohere主打的场景是财务、人力资源、销售、营销和客户支持等。
✋热门推荐