3D 检测为每个中心点需要三个附加属性:深度、3D 维度和方向。
我们为他们每个添加一个单独的head。
(这里原论文放在附录部分详细解释,并且引用了其他论文的工作) 深度 d:
heatmap大小:
损失函数(L1损失):
dk 是真值绝对深度(以米为单位),dk^为预测值, σ 是 sigmoid 函数
单个标量。深度很难直接回归。这里使用 Eigen 等人 [13] 和 d = 1/σ( ^d) − 1 的输出变换,其中 σ 是 sigmoid 函数。我们将深度计算为关键点估计器的附加输出通道 ^D ∈ [0, 1] W R × H R。它再次使用由 ReLU 分隔的两个卷积层。与以前的模态不同,它在输出层使用了反 sigmoid 变换。在 S 形变换之后,使用 L1 损失来训练深度估计器。
使用方法:Depth map prediction from a single image using a multi-scale deep network 3D维度:
三个标量。同样直接回归到它们以米为单位的绝对值。
损失函数(L1损失):
方向:
单个标量。同样很难直接回归。我们遵循 Mousavian 等人 [38] 并将方向表示为具有 in-bin 回归的两个 bin。
具体来说,方向使用 8 个标量进行编码,每个 bin 有 4 个标量。对于一个 bin,两个标量用于 softmax 分类,其余两个标量回归到每个 bin 内的一个角度。
使用方法:3d bounding box estimation using deep learning and geometry. 4.实验