【CVPR 2022 | 大幅提升全景分割效率,#谷歌# 联合学界从聚类角度重新解释掩码转换器】
在#自动驾驶# 、图像识别等领域,图像分割技术是其核心技术之一。全景分割方法是近年来发展迅速的最前沿的一种重要方法,它不仅可以赋予计算机更多的想象力,还可以帮助其预测周围的环境。
早期的全景分割方法通常将全景分割分为两大类任务,即语义分割(semantic segmentation)和场景分割(occasion segmentation)。在自动驾驶场景中,语义分割的目的是给图片中的每个像素分配其语义标签,如“行人”“天空”等,在接下来进行的场景分割中,计算机则会在图片中找到并分割出每一个可数的对象,如“行人 A”、“行人 B”、“汽车 A”等等。
而且更为繁琐的是,这两类任务还被划分为许多个子任务,其中每个子任务都被单独处理,之后每个子任务阶段的结果,则通过进一步的模块来合并。这样带来的问题是,在处理子任务并将不同子任务阶段的结果进行合并时,会引入许多手工模块。
在 2021 年的 CVPR 上,由谷歌研究院以及#美国约翰霍普金斯大学# 的研究人员发表的 MaX-DeepLab 方法的相关论文里,受转换器(Transformer) 和 DETR 方法的启发而提出,该方法是一种使用了掩码转换器的端到端的解决方案,有效克服了上述缺陷。
具体来说,该方法采用由卷积神经网络组成的像素路径,来完成像素提取的工作;并且采用由转换器解码模块组成的记忆路径,来进行记忆的提取;同时还引入了双路径转换器,来完成所选像素与所选记忆之间的交互工作。
不过这一方法存在一个问题:双路径转换器中的交叉注意力模块,本来是为语言任务而开发,也就是说作为输入的序列通常只有几十个或更多的短语。
但是如果将这一方法用于全景分割,尤其是那些带有联想型或前瞻性的任务中时,作为输入的序列则由数十个或更多的像素组成,规模变庞大了许多,这时该方法就有些余力不足。
也就是说,既将原本为自然语言任务设计的交叉注意力模块应用于图像领域,需要进一步的调整。
而就在最近,该团队在 CVPR 2022 上发布的名为《CMT-DeepLab:用于全景分割的聚类掩码转换器》(CMT-DeepLab: Clustering Masks Transformers for Panoptic Segmentation)以及在 ECCV 2022 上发表的《kMaX-DeepLab:k-means掩码转换器》(kMaX-DeepLab: k-means Masks Transformer)这两篇论文中,针对 Max-DeepLab 方法进行了改进,尤其是将交叉注意力以聚类的视角进行了重新解释与设计,提出了更适合带有联想型或前瞻性任务的全景分割方法。
戳链接查看详情:https://t.cn/A6S2BM67
在#自动驾驶# 、图像识别等领域,图像分割技术是其核心技术之一。全景分割方法是近年来发展迅速的最前沿的一种重要方法,它不仅可以赋予计算机更多的想象力,还可以帮助其预测周围的环境。
早期的全景分割方法通常将全景分割分为两大类任务,即语义分割(semantic segmentation)和场景分割(occasion segmentation)。在自动驾驶场景中,语义分割的目的是给图片中的每个像素分配其语义标签,如“行人”“天空”等,在接下来进行的场景分割中,计算机则会在图片中找到并分割出每一个可数的对象,如“行人 A”、“行人 B”、“汽车 A”等等。
而且更为繁琐的是,这两类任务还被划分为许多个子任务,其中每个子任务都被单独处理,之后每个子任务阶段的结果,则通过进一步的模块来合并。这样带来的问题是,在处理子任务并将不同子任务阶段的结果进行合并时,会引入许多手工模块。
在 2021 年的 CVPR 上,由谷歌研究院以及#美国约翰霍普金斯大学# 的研究人员发表的 MaX-DeepLab 方法的相关论文里,受转换器(Transformer) 和 DETR 方法的启发而提出,该方法是一种使用了掩码转换器的端到端的解决方案,有效克服了上述缺陷。
具体来说,该方法采用由卷积神经网络组成的像素路径,来完成像素提取的工作;并且采用由转换器解码模块组成的记忆路径,来进行记忆的提取;同时还引入了双路径转换器,来完成所选像素与所选记忆之间的交互工作。
不过这一方法存在一个问题:双路径转换器中的交叉注意力模块,本来是为语言任务而开发,也就是说作为输入的序列通常只有几十个或更多的短语。
但是如果将这一方法用于全景分割,尤其是那些带有联想型或前瞻性的任务中时,作为输入的序列则由数十个或更多的像素组成,规模变庞大了许多,这时该方法就有些余力不足。
也就是说,既将原本为自然语言任务设计的交叉注意力模块应用于图像领域,需要进一步的调整。
而就在最近,该团队在 CVPR 2022 上发布的名为《CMT-DeepLab:用于全景分割的聚类掩码转换器》(CMT-DeepLab: Clustering Masks Transformers for Panoptic Segmentation)以及在 ECCV 2022 上发表的《kMaX-DeepLab:k-means掩码转换器》(kMaX-DeepLab: k-means Masks Transformer)这两篇论文中,针对 Max-DeepLab 方法进行了改进,尤其是将交叉注意力以聚类的视角进行了重新解释与设计,提出了更适合带有联想型或前瞻性任务的全景分割方法。
戳链接查看详情:https://t.cn/A6S2BM67
增程式真的落后吗?[思考][思考][思考]
准确的说并不算落后,只是它不适合普通的民用车。
1、 因为现在的增程式更多的是被用在了商用领域,尤其是大型船只、火车和卡车上,他们只要负责拉货就行,但是这些巨型交通工具都是运输上百上千甚至上万吨的货物,几乎没有几台燃油发动机能达到这么大的推力和扭矩,所以用电机驱动车轮、发动机给电动机发电的增程式就成了这些大型运输工具最合适的动力方案。
2、 因为这些大怪兽只要需要拉着这些重物低速行驶就可以,非常符合电动机的输出特性,扭矩大而且能瞬间达到最大扭矩。同时发动机只作为发电机来给电动机发电,这样比发动机直接驱动这些大型车辆要省油的多,而且也没有充电的烦恼。
3、 但是增程式用在民用车身上就不合适了,因为民用车要经常高速行驶,所以跑高速的时候用发动机给电动机发电要比直接驱动车辆更费油,因此不划算。所以最适合民用车上的增程式的场景应该是70%及以上城市道路,30%高速道路。[并不简单][并不简单][并不简单]
准确的说并不算落后,只是它不适合普通的民用车。
1、 因为现在的增程式更多的是被用在了商用领域,尤其是大型船只、火车和卡车上,他们只要负责拉货就行,但是这些巨型交通工具都是运输上百上千甚至上万吨的货物,几乎没有几台燃油发动机能达到这么大的推力和扭矩,所以用电机驱动车轮、发动机给电动机发电的增程式就成了这些大型运输工具最合适的动力方案。
2、 因为这些大怪兽只要需要拉着这些重物低速行驶就可以,非常符合电动机的输出特性,扭矩大而且能瞬间达到最大扭矩。同时发动机只作为发电机来给电动机发电,这样比发动机直接驱动这些大型车辆要省油的多,而且也没有充电的烦恼。
3、 但是增程式用在民用车身上就不合适了,因为民用车要经常高速行驶,所以跑高速的时候用发动机给电动机发电要比直接驱动车辆更费油,因此不划算。所以最适合民用车上的增程式的场景应该是70%及以上城市道路,30%高速道路。[并不简单][并不简单][并不简单]
高格通过对业主产品、业务、文化、客户的充分调研和理解,再结合专业的空间创意设计能力、空间项目施工管理能力、空间效果精细把控能力创造出符合业主发展的办公空间产品。未来,高格将在企业定制化办公空间领域继续深耕发展,为更多富有理想和抱负的企业和团队打造富有企业文化的办公空间。https://t.cn/A6S2p3aN
✋热门推荐