我有多个经过校准的相机拍摄平面场景的照片。为简单起见,假设有3个相机。这些相机正在进行一般运动,但主要是平移加上一些轻微旋转。相机示例位置
任务是将它们全部拼接在一起。我不知道3D坐标,只有使用已校准的相机拍摄的一组图像。
我使用OpenCV中的SURF/SIFT实现检测特征,通过对每对图像(1->2, 2->3, 1->3)使用findHomography来获得初始单应性。从这些单应性中,我可以获得每个相机的初始姿态估计(类似于此过程)。
然后我尝试使用捆绑调整技术来最小化每个匹配对的重投影误差。优化参数是三个平移值和三个旋转值(从Rodrigues旋转公式获得),尽管我稍后可以添加内部参数(焦距,主点等)。
假设图像#2将成为参考帧(因为它与其他两个图像有最多的匹配),其旋转和平移矩阵分别为单位矩阵和零矩阵。
where r__是R1矩阵的元素,两个内参矩阵都采用以下形式
在这里,R__是inv(R1)矩阵的元素。
有没有更好的方法来计算束调整(2d-> 2d)的重新投影误差,然后将图像变形为公共坐标系?我注意到OpenCV在其拼接模块中具有非常相似的框架,但它基于纯旋转运动的假设,而这里不是这种情况。
我使用OpenCV中的SURF/SIFT实现检测特征,通过对每对图像(1->2, 2->3, 1->3)使用findHomography来获得初始单应性。从这些单应性中,我可以获得每个相机的初始姿态估计(类似于此过程)。
然后我尝试使用捆绑调整技术来最小化每个匹配对的重投影误差。优化参数是三个平移值和三个旋转值(从Rodrigues旋转公式获得),尽管我稍后可以添加内部参数(焦距,主点等)。
假设图像#2将成为参考帧(因为它与其他两个图像有最多的匹配),其旋转和平移矩阵分别为单位矩阵和零矩阵。
我计算关键点(在图像#2和图像#1中均可见)从图像#2到图像#1的重新投影如下(伪代码)
[x1_; y1_; z1_] = K1*R1*inv(K2)*[x2; y2; 1] + K1*T1/Z2;
x1 = x1_/z1_;
y1 = y1_/z1_;
或者
x1 = ((f1/f2)*r11*x2 + (f1/f2)*r12*y2 + f1*r13 + f1*tx/Z2) / ((1/f2)*r31*x2 + (1/f2)*r32*y2 + r33 + tx/Z2)
y1 = ((f1/f2)*r21*x2 + (f1/f2)*r22*y2 + f1*r23 + f1*ty/Z2) / ((1/f2)*r31*x2 + (1/f2)*r32*y2 + r33 + ty/Z2)
where r__是R1矩阵的元素,两个内参矩阵都采用以下形式
[f 0 0]
[0 f 0]
[0 0 1]
我假设参考系的Z2坐标为1。
下一步是使用获得的相机矩阵(K1,R1,T1,K3,R3,T3)将图像#1和#3扭曲到图像#2的公共坐标系中。
问题在于我不知道正确重投影到图像#2参考系所需的Z1和Z3,因为从图像#1->#2的反向重投影如下:
x2 = ((f2/f1)*R11*x1 + (f2/f1)*R12*y1 + f2*R13 - f0/Z1*(R11*tx + R12*ty + R13*tz)) / ((1/f1)*R31*x1 + (1/f1)*R32*y1 + R33 - 1/Z1*(R31*tx + R32*ty + R33*tz))
y2 = ((f2/f1)*R21*x1 + (f2/f1)*R22*y1 + f2*R23 - f0/Z1*(R21*tx + R22*ty + R23*tz)) / ((1/f1)*R31*x1 + (1/f1)*R32*y1 + R33 - 1/Z1*(R31*tx + R32*ty + R33*tz))
在这里,R__是inv(R1)矩阵的元素。
有没有更好的方法来计算束调整(2d-> 2d)的重新投影误差,然后将图像变形为公共坐标系?我注意到OpenCV在其拼接模块中具有非常相似的框架,但它基于纯旋转运动的假设,而这里不是这种情况。