了解感兴趣的领域-(ROI)
快速简单地解释什么是RoI池化,它是如何工作的?为什么我们在Fast R-CNN中使用它?
Fast R-CNN中ROI池化的解释(1)
同样适用于Faster R-CNN
感兴趣区(Region of Interest)是从原始图像中提出的区域。我们不打算描述如何提取这些区域因为有多种方法能做到这一点。我们现在唯一应该知道的是有多个这样的区域、所有这些区域都应该在最后进行测试。
R-CNN的工作速度有多快?
1. 特征提取
Fast R-CNN不同于基本的R-CNN网络。它只有一个卷积特征提取。我们在该例中使用VGG16。我们的模型采用尺寸为512 x 512 x 3(W×H×C)的图像输入,VGG16把它映射为16 x 16 x 512特征映射。您可使用不同的输入大小(通常更小,Keras中VGG16的默认输入大小是224 x 224)。如果你观察输出矩阵,那么你应注意到它的宽度和高度正好是输入图像的32倍(512/32 = 16)。这很重要,因为所有的ROI都要按这个因子进行缩减。参见图1.
2. 样本ROIs
这里我们有4个不同的ROIs。在实际的Fast R-CNN中,你可能会有成千上万的它们,但打印所有它们会使图像不可读。请参见图2。
3. 带Fast R-CNN检查的区域(green box)
RoI不是bbox
重要的是要记住RoIs不是一个bbox。它可能看起来像一个,但它只是一个进一步处理的建议。许多人假设因为大多数的论文和博客文章都是创建建议而不是实际对象。这样更方便,我在图像上也这么做。这里是一个不同建议区域的例子,它被Fast R-CNN(Green Box)选中。有一些方法可限制roi的数量,这里不做讨论。请参见图3。
4. 如何从feature map中获取RoIs ?
现在,当我们知道RoI是什么时,我们必须能把它们映射到VGG16的输出特性映射上。请参见图4。
5. 选取其中一个ROI
每个RoI都有它的原始坐标和尺寸。从现在开始,我们只关注其中最右边那一个。它的原始尺寸是145x200,左上角(X,Y)的坐标设为(192,296)。正如你所知,我们不能用32(比例因子)除以这些数字中的大多数。
W:200/32 = 6.25
H:145/32 = ~4.53
X: 296/32 = 9.25
Y: 192/32 = 6
只有最后一个数字(左上角的Y坐标)有意义。这是因为我们当前处理的是16 x16 网格,我们关心的数字只有整数(更准确地说:自然数)。
6. 特征地图上坐标的量化()
量化是一个将输入从一个大的值集(如实数)限制为离散的值集(如整数)的过程。如果我们将最初的RoI放在特征图上,那么它如图6所示:除以32后的当前小数和整数的对照。
7. 深黄色部分
我们不能在它上真正应用池化层,因为一些单元格(cell)是分开的。量化所做的是每个结果在放到矩阵上之前都会四舍五入。9.25变成9、4.53变成4等。
8. 丢失的部分
你注意到刚刚丢失一堆数据(深蓝色)并获得新的数据(绿色): 其中右边由于从横向左边第9格机上到第14个从而丢失部分数据,而左边9.25中的0.25减掉后反而获得绿色的增加部分。
towardsdatascience: /understanding-region-of-interest-part-1-roi-pooling-e4f5dd65bb44
快速简单地解释什么是RoI池化,它是如何工作的?为什么我们在Fast R-CNN中使用它?
Fast R-CNN中ROI池化的解释(1)
同样适用于Faster R-CNN
感兴趣区(Region of Interest)是从原始图像中提出的区域。我们不打算描述如何提取这些区域因为有多种方法能做到这一点。我们现在唯一应该知道的是有多个这样的区域、所有这些区域都应该在最后进行测试。
R-CNN的工作速度有多快?
1. 特征提取
Fast R-CNN不同于基本的R-CNN网络。它只有一个卷积特征提取。我们在该例中使用VGG16。我们的模型采用尺寸为512 x 512 x 3(W×H×C)的图像输入,VGG16把它映射为16 x 16 x 512特征映射。您可使用不同的输入大小(通常更小,Keras中VGG16的默认输入大小是224 x 224)。如果你观察输出矩阵,那么你应注意到它的宽度和高度正好是输入图像的32倍(512/32 = 16)。这很重要,因为所有的ROI都要按这个因子进行缩减。参见图1.
2. 样本ROIs
这里我们有4个不同的ROIs。在实际的Fast R-CNN中,你可能会有成千上万的它们,但打印所有它们会使图像不可读。请参见图2。
3. 带Fast R-CNN检查的区域(green box)
RoI不是bbox
重要的是要记住RoIs不是一个bbox。它可能看起来像一个,但它只是一个进一步处理的建议。许多人假设因为大多数的论文和博客文章都是创建建议而不是实际对象。这样更方便,我在图像上也这么做。这里是一个不同建议区域的例子,它被Fast R-CNN(Green Box)选中。有一些方法可限制roi的数量,这里不做讨论。请参见图3。
4. 如何从feature map中获取RoIs ?
现在,当我们知道RoI是什么时,我们必须能把它们映射到VGG16的输出特性映射上。请参见图4。
5. 选取其中一个ROI
每个RoI都有它的原始坐标和尺寸。从现在开始,我们只关注其中最右边那一个。它的原始尺寸是145x200,左上角(X,Y)的坐标设为(192,296)。正如你所知,我们不能用32(比例因子)除以这些数字中的大多数。
W:200/32 = 6.25
H:145/32 = ~4.53
X: 296/32 = 9.25
Y: 192/32 = 6
只有最后一个数字(左上角的Y坐标)有意义。这是因为我们当前处理的是16 x16 网格,我们关心的数字只有整数(更准确地说:自然数)。
6. 特征地图上坐标的量化()
量化是一个将输入从一个大的值集(如实数)限制为离散的值集(如整数)的过程。如果我们将最初的RoI放在特征图上,那么它如图6所示:除以32后的当前小数和整数的对照。
7. 深黄色部分
我们不能在它上真正应用池化层,因为一些单元格(cell)是分开的。量化所做的是每个结果在放到矩阵上之前都会四舍五入。9.25变成9、4.53变成4等。
8. 丢失的部分
你注意到刚刚丢失一堆数据(深蓝色)并获得新的数据(绿色): 其中右边由于从横向左边第9格机上到第14个从而丢失部分数据,而左边9.25中的0.25减掉后反而获得绿色的增加部分。
towardsdatascience: /understanding-region-of-interest-part-1-roi-pooling-e4f5dd65bb44
#水至清则无瑜[超话]#
昨天深夜翻到一个叫蚊叽叽的up主的视频,《起风了》这一段看一遍心痛一遍,希望这个春天定格在这一瞬间,不要成团,不要有人被淘汰。
创4最后悔的是自己太真情实感了,感情成本投入太高,直到现在提起庆怜、奥斯卡、胡烨涛、张星特、吴宇恒、Amu、吉祥等等太多人都是心痛。创4节目组各种恶心人,他们太过优秀,给个镜头就能把他们美好闪光的一面展示出来,又转瞬熄灭他。
留个bv号,有兴趣可以去瞅瞅(有咱不喜的人,介意就不用去了 )BV1U44y167i1
昨天深夜翻到一个叫蚊叽叽的up主的视频,《起风了》这一段看一遍心痛一遍,希望这个春天定格在这一瞬间,不要成团,不要有人被淘汰。
创4最后悔的是自己太真情实感了,感情成本投入太高,直到现在提起庆怜、奥斯卡、胡烨涛、张星特、吴宇恒、Amu、吉祥等等太多人都是心痛。创4节目组各种恶心人,他们太过优秀,给个镜头就能把他们美好闪光的一面展示出来,又转瞬熄灭他。
留个bv号,有兴趣可以去瞅瞅(有咱不喜的人,介意就不用去了 )BV1U44y167i1
大家好!!!小編今天要介紹的是反轉英雄“神奇四俠未來基金會”系列中的傑克.包爾。編號16,人物登場於1984年超能小隊漫畫第1回中。
超能小隊的特色是成員四人之間能夠交換各自的能力使用。雖然每個人都有拿手的技巧,傑克雖然本身的能力是控制身體的密度轉換,但他在使用其他成員的各種能力時也總能發會出全新的應用。傑克是超能小隊中最無畏的攻擊手,對於他的背景有興趣請看以下連結:
https://t.cn/A6cdDifY)
#反轉英雄# #神奇四俠未來基金會# #桌遊# #戰棋#
超能小隊的特色是成員四人之間能夠交換各自的能力使用。雖然每個人都有拿手的技巧,傑克雖然本身的能力是控制身體的密度轉換,但他在使用其他成員的各種能力時也總能發會出全新的應用。傑克是超能小隊中最無畏的攻擊手,對於他的背景有興趣請看以下連結:
https://t.cn/A6cdDifY)
#反轉英雄# #神奇四俠未來基金會# #桌遊# #戰棋#
✋热门推荐