【NeurIPS】新颖的音视频模态融合架构 MBT, 多模态融合注意力瓶颈
出品人:jaelgu(GitHub)
人们通过从多种模态(比如视觉和音频)处理和融合高维输入来感知世界。机器感知模型通常会针对模态来进行设计和优化。因此晚期阶段融合一个单独模态的的特征或者预测结果,是多模态视频分类的一个主流范式。与此不同,MBT (Multimodal Bottleneck Transformers)提出了一个新颖的策略,基于 transformer 架构使用了“融合瓶颈”,在多个层进行模态融合。与传统的成对的自注意力相比,这种模型可以迫使不同模态的信息通过少量的瓶颈隐表示,从而要求模型来去压缩每个模态的相关信息。这种策略可以在减少计算开销的同时改进融合性能。
MBT 限制在同一层内 token 之间跨模态的注意力流。具体来说,是允许模态内的的自由注意力流,但是强制模型来压缩模态的信息。其核心想法是引入一小部分隐式的融合单元形成一个“注意力瓶颈”,跨模态的信息必须从中进行通过。MBT 证明了使用该方法的模型超过了无约束的模型,并且降低了计算量。
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!
如果你对我们的项目感兴趣请关注:
[微风] 用于构建模型推理流水线的框架 Towhee:https://t.cn/A6SZZgUj
出品人:jaelgu(GitHub)
人们通过从多种模态(比如视觉和音频)处理和融合高维输入来感知世界。机器感知模型通常会针对模态来进行设计和优化。因此晚期阶段融合一个单独模态的的特征或者预测结果,是多模态视频分类的一个主流范式。与此不同,MBT (Multimodal Bottleneck Transformers)提出了一个新颖的策略,基于 transformer 架构使用了“融合瓶颈”,在多个层进行模态融合。与传统的成对的自注意力相比,这种模型可以迫使不同模态的信息通过少量的瓶颈隐表示,从而要求模型来去压缩每个模态的相关信息。这种策略可以在减少计算开销的同时改进融合性能。
MBT 限制在同一层内 token 之间跨模态的注意力流。具体来说,是允许模态内的的自由注意力流,但是强制模型来压缩模态的信息。其核心想法是引入一小部分隐式的融合单元形成一个“注意力瓶颈”,跨模态的信息必须从中进行通过。MBT 证明了使用该方法的模型超过了无约束的模型,并且降低了计算量。
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!
如果你对我们的项目感兴趣请关注:
[微风] 用于构建模型推理流水线的框架 Towhee:https://t.cn/A6SZZgUj
#男子炒菜触发消防喷淋被淋1小时#许多火灾事故的发生,都是因为不注意小细节引起的。因此,日常生活中,一定要注意以下几点:①将灭火器放在易取的位置;②将打火机等可能引起火灾的物品远离卧室;③做饭中途请不要随意离开厨房;④微波炉、烤箱等大功率电器必须配置专用插座;⑤电插座上插头不宜超过3个…更多内容戳图了解↓↓及时消除火灾隐患,时刻注意消防安全
#男子炒菜触发消防喷淋被淋1小时#许多火灾事故的发生,都是因为不注意小细节引起的。因此,日常生活中,一定要注意以下几点:①将灭火器放在易取的位置;②将打火机等可能引起火灾的物品远离卧室;③做饭中途请不要随意离开厨房;④微波炉、烤箱等大功率电器必须配置专用插座;⑤电插座上插头不宜超过3个…更多内容戳图了解↓↓及时消除火灾隐患,时刻注意消防安全!
✋热门推荐