第一个特征图集是从 VGG 16 体系结构的第 23 层提取的,大小为 38 x 38 x 512(此处 512 是过滤器的深度或数量)。 第二组要素图的大小为 19 x 19 x 1,024,适用于捕获稍大的对象。 进一步的特征图集将尺寸减小到 10 x 10 x 512、5 x 5 x 256、3 x 3 x 256,最后减小到 1 x 1 x 256。
为了进行预测,SSD 在提取的特征图上使用 3 x 3 x`d`(`d`表示过滤器的深度)卷积内核。 对于特征图上的每个点,3 x 3 内核输出边界框偏移量和类分数。 SSD 为功能图中的每个点分配了默认框。 3 x 3 卷积的工作是从覆盖对象的默认边界框预测四个偏移值。 除偏移量外,它还可以预测类别的`c`类别分数。 如果我们在每个位置都有`m`x`n`尺寸特征图,并且在每个位置都有`k`默认边界框,则从该层做出的预测总数将为*(c + 4)xkxmxn* 。 每个位置的默认框数通常为 4 到 6。 这些默认边界框的比例和大小由网络中最低和最高要素图的比例决定。 假设我们有`m`个特征图; 然后,默认边界框的比例(*`s[k]`*)由以下公式给出:
为了进行预测,SSD 在提取的特征图上使用 3 x 3 x`d`(`d`表示过滤器的深度)卷积内核。 对于特征图上的每个点,3 x 3 内核输出边界框偏移量和类分数。 SSD 为功能图中的每个点分配了默认框。 3 x 3 卷积的工作是从覆盖对象的默认边界框预测四个偏移值。 除偏移量外,它还可以预测类别的`c`类别分数。 如果我们在每个位置都有`m`x`n`尺寸特征图,并且在每个位置都有`k`默认边界框,则从该层做出的预测总数将为*(c + 4)xkxmxn* 。 每个位置的默认框数通常为 4 到 6。 这些默认边界框的比例和大小由网络中最低和最高要素图的比例决定。 假设我们有`m`个特征图; 然后,默认边界框的比例(`s[k]`)由以下公式给出: