【NeurIPS】新颖的音视频模态融合架构 MBT, 多模态融合注意力瓶颈
出品人:jaelgu(GitHub)
人们通过从多种模态(比如视觉和音频)处理和融合高维输入来感知世界。机器感知模型通常会针对模态来进行设计和优化。因此晚期阶段融合一个单独模态的的特征或者预测结果,是多模态视频分类的一个主流范式。与此不同,MBT (Multimodal Bottleneck Transformers)提出了一个新颖的策略,基于 transformer 架构使用了“融合瓶颈”,在多个层进行模态融合。与传统的成对的自注意力相比,这种模型可以迫使不同模态的信息通过少量的瓶颈隐表示,从而要求模型来去压缩每个模态的相关信息。这种策略可以在减少计算开销的同时改进融合性能。
MBT 限制在同一层内 token 之间跨模态的注意力流。具体来说,是允许模态内的的自由注意力流,但是强制模型来压缩模态的信息。其核心想法是引入一小部分隐式的融合单元形成一个“注意力瓶颈”,跨模态的信息必须从中进行通过。MBT 证明了使用该方法的模型超过了无约束的模型,并且降低了计算量。
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!
如果你对我们的项目感兴趣请关注:
[微风] 用于构建模型推理流水线的框架 Towhee:https://t.cn/A6SZZgUj
出品人:jaelgu(GitHub)
人们通过从多种模态(比如视觉和音频)处理和融合高维输入来感知世界。机器感知模型通常会针对模态来进行设计和优化。因此晚期阶段融合一个单独模态的的特征或者预测结果,是多模态视频分类的一个主流范式。与此不同,MBT (Multimodal Bottleneck Transformers)提出了一个新颖的策略,基于 transformer 架构使用了“融合瓶颈”,在多个层进行模态融合。与传统的成对的自注意力相比,这种模型可以迫使不同模态的信息通过少量的瓶颈隐表示,从而要求模型来去压缩每个模态的相关信息。这种策略可以在减少计算开销的同时改进融合性能。
MBT 限制在同一层内 token 之间跨模态的注意力流。具体来说,是允许模态内的的自由注意力流,但是强制模型来压缩模态的信息。其核心想法是引入一小部分隐式的融合单元形成一个“注意力瓶颈”,跨模态的信息必须从中进行通过。MBT 证明了使用该方法的模型超过了无约束的模型,并且降低了计算量。
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!
如果你对我们的项目感兴趣请关注:
[微风] 用于构建模型推理流水线的框架 Towhee:https://t.cn/A6SZZgUj
【故宫博物馆迎第50万访客,获赠一年会籍及门票NFT】香港故宫文化博物馆由今年7月3日开幕至今已录得50万访客到访。为庆祝这个重要里程碑,香港故宫文化博物馆馆长吴志华昨日于博物馆地下大堂迎接第50万名访客,并向其赠送一年博物馆个人会籍、博物馆门票图像之非同质化代币(non-fungible token, NFT)以及其他纪念品。#香港新闻#
https://t.cn/A6opLIly
https://t.cn/A6opLIly
「欧科云链:Team Finance资金受损或因合约实施不严谨所致」
欧科云链链上卫士监测,Team Finance安全事件中除攻击中的合约漏洞外,Uniswap V3的迁移合约实施不严谨或是造成损失的主因之一。
链上卫士安全团队分析,Team Finance的LP token转移函数,在输入参数校验逻辑上存在问题,黑客通过创建攻击token并进行锁仓,获得转移LP token权限,从而可以将其他LP 代币进行转移。但转移过程中,通过输入参数控制,只将1%的Uniswap V2 LP 代币migrate到Uniswap V3,其余代币被返还给攻击者,实现了攻击。
#区块链# #区块链安全# #区块链技术#
欧科云链链上卫士监测,Team Finance安全事件中除攻击中的合约漏洞外,Uniswap V3的迁移合约实施不严谨或是造成损失的主因之一。
链上卫士安全团队分析,Team Finance的LP token转移函数,在输入参数校验逻辑上存在问题,黑客通过创建攻击token并进行锁仓,获得转移LP token权限,从而可以将其他LP 代币进行转移。但转移过程中,通过输入参数控制,只将1%的Uniswap V2 LP 代币migrate到Uniswap V3,其余代币被返还给攻击者,实现了攻击。
#区块链# #区块链安全# #区块链技术#
✋热门推荐