马斯克在最后一刻如约开源了Grok,模型有314B大小,这是第一个如此规模的开源模型。#ai#
国内的公司又能起飞一波了,不过模型没有经过微调,对各家的训练技术也有一定的考验。
模型快速介绍:
基础信息: 模型规模为314B,由8个专家系统组成(其中2个处于活跃状态)。 活跃参数总数达到86B。该模型采用旋转嵌入(Rotary Embeddings)技术#rope,而非传统的固定位置嵌入方式。
这个版本的Grok-1是我们在2023年10月完成预训练阶段时的初始模型版本。
Apache 2.0这一开源许可证下发布这个模型的权重和架构,任何人都可以在该许可证的规则下使用这些资源。
它是一个拥有3140亿参数的混合专家模型,其中在处理每个数据单元(Token)时,大约有25%的模型参数是活跃的,这意味着模型可以更高效地运行。
发布公告:https://t.cn/A6ThG4y8
这个模型是xAI团队使用定制的训练架构,在JAX和Rust的基础上从头开始搭建并训练出的成果。
模型架构介绍:
分词器的词汇量为131,072(与GPT-4相似),即2的17次方。 嵌入向量的大小为6,144(48*128)。
模型包含64层的Transformer结构(这是相当高的层数)。 每层包含一个解码层,由多头注意力模块(Multihead Attention Block)和密集前馈块(Denseblock)构成。 键值对(Key-Value)的大小为128。
在多头注意力模块中: 用于查询的头数为48, 而用于键/值(Key/Value, KV)的头数为8, 其中KV的大小为128。
密集前馈块(Dense Block)的特点包括: 扩展因子为8, 隐藏层的大小为32,768。
每个Token会从8个专家中选出2个进行处理。
旋转位置嵌入(Rotary Positional Embeddings)的大小为6,144,这与模型的输入嵌入尺寸相匹配。
模型可以处理的上下文长度为8,192个Token。 计算精度为bf16。 为了运行整个模型,你可能需要5台H100 GPU。
国内的公司又能起飞一波了,不过模型没有经过微调,对各家的训练技术也有一定的考验。
模型快速介绍:
基础信息: 模型规模为314B,由8个专家系统组成(其中2个处于活跃状态)。 活跃参数总数达到86B。该模型采用旋转嵌入(Rotary Embeddings)技术#rope,而非传统的固定位置嵌入方式。
这个版本的Grok-1是我们在2023年10月完成预训练阶段时的初始模型版本。
Apache 2.0这一开源许可证下发布这个模型的权重和架构,任何人都可以在该许可证的规则下使用这些资源。
它是一个拥有3140亿参数的混合专家模型,其中在处理每个数据单元(Token)时,大约有25%的模型参数是活跃的,这意味着模型可以更高效地运行。
发布公告:https://t.cn/A6ThG4y8
这个模型是xAI团队使用定制的训练架构,在JAX和Rust的基础上从头开始搭建并训练出的成果。
模型架构介绍:
分词器的词汇量为131,072(与GPT-4相似),即2的17次方。 嵌入向量的大小为6,144(48*128)。
模型包含64层的Transformer结构(这是相当高的层数)。 每层包含一个解码层,由多头注意力模块(Multihead Attention Block)和密集前馈块(Denseblock)构成。 键值对(Key-Value)的大小为128。
在多头注意力模块中: 用于查询的头数为48, 而用于键/值(Key/Value, KV)的头数为8, 其中KV的大小为128。
密集前馈块(Dense Block)的特点包括: 扩展因子为8, 隐藏层的大小为32,768。
每个Token会从8个专家中选出2个进行处理。
旋转位置嵌入(Rotary Positional Embeddings)的大小为6,144,这与模型的输入嵌入尺寸相匹配。
模型可以处理的上下文长度为8,192个Token。 计算精度为bf16。 为了运行整个模型,你可能需要5台H100 GPU。
上周五市场全天探底回升,三大指数均小幅收涨。
盘面上,有色金属携金属回收概念股再度走强,机器人板块10余股涨停,此外,有机硅和飞行汽车概念股午后异动。
指数层面,相比沪指周线录得5连阳,更值得注意的是,盘后证监会接连发布4项政策文件,之前提到过年初的非理性下跌主要是受“外资流出+DMA、雪球等产品的被动卖出”,而节后一方面是北向持续性的买回,同时监管持续查缺补漏,一旦将内外两个篱笆扎牢,后续行情大概率会越来越稳定。
而在市场回归理性后,站在机构视角,历年3、4月会开始将更多注意力放在一季报的潜在方向上。这里引用华创策略的观点,今年有望超预期的方向:部分消费行业&上游资源品。刚好上周盘面上,上半周大消费涨,下半周有色涨,契合了机构的调仓方向。
因此,除了短线题材外,类似去年下半年高股息股的机构主导板块很可能就从这些方向中走出来。
题材上,盘前刚聊到择时,上周五的一进二晋级率便达到了42.42%,仅略低于2月29日的55.56%(10/18),并且上周四和2月28日都是首板家数较少的日子。
而在这批二连板中,涉及的题材包括金属回收(环保)+地产产业链+机器人+药等,考虑到此次机器人的催化是神经网络的突破,因此现阶段仍旧是制造(机器人+飞行汽车)+科技(AI)为主,政策驱动性题材为辅的格局。
最后,近期低价股似乎更受资金偏爱,同样以周五为例,18只连板股中,13只个股在连板前一天的收盘价都是低于10元,此外除ST个股外的55只1元股在周五的平均涨幅为2%,作为对比38只百元股的涨幅则为0.75%。
【龙头板块】机器视觉
OpenAI的大模型被成功移植到Figure01上,使得机器人能够理解场景、区分物体、理解自身行为、预测响应并自我评价。升级的关键在于端到端的大语言-视觉模型,它负责从语言输入到行为输出的全程处理,包括语言交互和动作处理,显著提高了机器人的智能和灵活性。国盛证券刘高畅认为, Figure与OpenAI 合作后的进展速度体现了大模型赋能人形机器人的巨大潜力, 基于业界目前进展,人形机器人产业落地趋势明朗,有望为产业链相关公司打开增长空间。板块内上市公司包括:宏达新材、航宇微等。
盘面上,有色金属携金属回收概念股再度走强,机器人板块10余股涨停,此外,有机硅和飞行汽车概念股午后异动。
指数层面,相比沪指周线录得5连阳,更值得注意的是,盘后证监会接连发布4项政策文件,之前提到过年初的非理性下跌主要是受“外资流出+DMA、雪球等产品的被动卖出”,而节后一方面是北向持续性的买回,同时监管持续查缺补漏,一旦将内外两个篱笆扎牢,后续行情大概率会越来越稳定。
而在市场回归理性后,站在机构视角,历年3、4月会开始将更多注意力放在一季报的潜在方向上。这里引用华创策略的观点,今年有望超预期的方向:部分消费行业&上游资源品。刚好上周盘面上,上半周大消费涨,下半周有色涨,契合了机构的调仓方向。
因此,除了短线题材外,类似去年下半年高股息股的机构主导板块很可能就从这些方向中走出来。
题材上,盘前刚聊到择时,上周五的一进二晋级率便达到了42.42%,仅略低于2月29日的55.56%(10/18),并且上周四和2月28日都是首板家数较少的日子。
而在这批二连板中,涉及的题材包括金属回收(环保)+地产产业链+机器人+药等,考虑到此次机器人的催化是神经网络的突破,因此现阶段仍旧是制造(机器人+飞行汽车)+科技(AI)为主,政策驱动性题材为辅的格局。
最后,近期低价股似乎更受资金偏爱,同样以周五为例,18只连板股中,13只个股在连板前一天的收盘价都是低于10元,此外除ST个股外的55只1元股在周五的平均涨幅为2%,作为对比38只百元股的涨幅则为0.75%。
【龙头板块】机器视觉
OpenAI的大模型被成功移植到Figure01上,使得机器人能够理解场景、区分物体、理解自身行为、预测响应并自我评价。升级的关键在于端到端的大语言-视觉模型,它负责从语言输入到行为输出的全程处理,包括语言交互和动作处理,显著提高了机器人的智能和灵活性。国盛证券刘高畅认为, Figure与OpenAI 合作后的进展速度体现了大模型赋能人形机器人的巨大潜力, 基于业界目前进展,人形机器人产业落地趋势明朗,有望为产业链相关公司打开增长空间。板块内上市公司包括:宏达新材、航宇微等。
#第六届“词风诗雨”汉语言文化大赛·海选赛&开赛日#
汉语言文化大赛的线上海选赛终于开始了!报名成功的同学们积极参与哟[打call]!
一、海选赛平台开放时间:2024年3月18日8:00~22:00
二、两种参赛方式:
1.进入“图管会”微信公众号点击“词风诗雨” 获取参赛链接。
2.关注“词风诗雨”官方赛事公众号输入“三峡大学”获取参赛链接。
图图期待大家能在本次海选比赛中,凭借自己的实力脱颖而出,祝大家好运哦[赢牛奶]。
汉语言文化大赛的线上海选赛终于开始了!报名成功的同学们积极参与哟[打call]!
一、海选赛平台开放时间:2024年3月18日8:00~22:00
二、两种参赛方式:
1.进入“图管会”微信公众号点击“词风诗雨” 获取参赛链接。
2.关注“词风诗雨”官方赛事公众号输入“三峡大学”获取参赛链接。
图图期待大家能在本次海选比赛中,凭借自己的实力脱颖而出,祝大家好运哦[赢牛奶]。
✋热门推荐