简单记录一下用网络进行双目视差估计的开山之作,GC-Net,出自ICCV 2017 论文《GC-Net:End-to-End Learning of Geometry and Context for Deep Stereo Regression》。
对于双目图像,极线对齐后可以利用对极几何求出像素对应的深度,从而恢复像素的三维结构。深度的获取简单说来就是求出左右目图像的同源物点在图像上投影的像素横向偏差(视差),再利用相机光心间的基线长度和矫正后的焦距根据相似三角原理计算得出。
原理不难,抛开前面的双目矫正部分,对于已经矫正好极线对齐的一对图像,求其视差的关键在于寻找同一极线上的匹配点。根据相似三角原理,深度和视差成反比关系,越近的点视差越大,越远的点视差越小。对于稍远一些距离,匹配精度对于深度的影响非常大。
如何产生鲁棒的双目像素点匹配关系,从而鲁棒的估计双目视差?GC-Net利用神经网络进行了精巧的设计,提出了新的思路。
核心思想