第四章：照相机模型与增强现实

[1 针孔照相机模型](#1 针孔照相机模型)

[1.1 照相机矩阵](#1.1 照相机矩阵)

[1.2 三维点的投影](#1.2 三维点的投影)

[1.3 照相机矩阵的分解](#1.3 照相机矩阵的分解)

[1.4 计算照相机中心](#1.4 计算照相机中心)

[2 照相机标定](#2 照相机标定)

[3 以平面和标记物进行姿态估计](#3 以平面和标记物进行姿态估计)

[4 增强现实](#4 增强现实)

[4.1 PyGame和PyOpenGL](#4.1 PyGame和PyOpenGL)

[4.2 从照相机矩阵到OpenGL格式](#4.2 从照相机矩阵到OpenGL格式)

[4.3 在图像中放置物体](#4.3 在图像中放置物体)

1 针孔照相机模型

针孔照相机模型是计算机视觉中广泛使用的照相机模型。该相机从一个小孔采集射到暗箱内部的光线。在真空照相机模型中，在光线投射到图像平面之前，从唯一一个点经过。

在图中示出了与针孔相机映射有关的几何形状。该图包含以下基本对象：

一个原点在O点的三维正交坐标系，这也是相机光圈的位置。坐标系的三个轴被称为X1、X2、X3。X3轴指向相机的观察方向，称为光轴、主轴或主射线。由轴X1和X2张成的平面是相机的正面，或称主平面。
一个像平面，其中三维世界通过相机光圈进行投影。像平面平行于轴X1和X2，并且在X3轴的负方向上与原点O距离为f，其中f是针孔相机的焦距。针孔相机的实际实现意味着像平面的位置应使与X3轴在坐标-f处相交，其中f>0。
在光轴和像平面相交处的点R，该点称为主点或图像中心。
真实世界中的某一点P，有相对于轴X1、X2、X3的坐标(x1,x2,x3)。点P在相机中的投影线。也就是图中穿过点P和点O的绿线。点P在像平面上的投影，记作点Q。这个点由投影线(绿色)与像平面的交点表示。在任何实际情况下，我们可以假设x3>0，这意味着交点是定义良好的。
在像平面上也有一个二维坐标系：原点在R，轴Y1和Y2分别平行于X1和X2。点Q相对于这个坐标系的坐标是(y1,y2)。

1.1 照相机矩阵

照相机矩阵可以分解为：

其中，R是描述照相机方向的旋转矩阵，t是描述照相机中心位置的三维平移向量，内标定矩阵K描述照相机的投影性质。标定矩阵仅和照相机自身的情况相关，通常情况下可以写成：

图像平面和照相机中心的距离称为焦距f。当像素数组在传感器上偏斜的时候，需要用到倾斜参数s。在大多数情况下s可以设置为0。

纵横比例α是在像素元素非正方形的情况下使用的，通常情况下可以默认设置α=1。

除焦距之外，标定矩阵中剩余的唯一参数为光心，即主点，也就是光线坐标轴和图像平面的交点。因为光心通常在图像的中心，并且图像的坐标是从左上角开始计算的，所以光心的坐标常接近于图像高度和宽度的一半。

1.2 三维点的投影

创建一个照相机类，用来处理对照相机和投影建模所需要的全部操作

复制代码

from scipy.import linalg

class Camera(object):
	def _init_(self, p):
		self.p = p
		self.K = None
		self.R = None
		self.t = None
		self.c = None
		
	def project(self, x):
		x = dot(self.P, X)
		
		for i in range(3):
			x[i] /= x[2]
		
		return x

下边的例子将三维中的点投影到图像视图中：

复制代码

from pylab import *
import camera


points=loadtxt('house.p3d').T
points=vstack((points,ones(points.shape[1])))

P=hstack((eye(3),array([[0],[0],[-10]])))
cam = camera.Camera(P)
x=cam.project(points)

figure()
subplot(121)
axis('off')
plot(x[0],x[1],'k.')
subplot(122)
axis('off')
r=0.05*random.rand(3)
rot=camera.rotation_matrix(r)
for t in range(20):
    cam.P=dot(cam.P,rot)
    x=cam.project(points)
    plot(x[0],x[1],'k.')


show()

首先使用齐次坐标表示这些点，然后使用一个投影矩阵来创建Camera对象将这些三维点投影到图像平面并执行绘制操作，上边的代码围绕这个随机的三维变量进行增量旋转的投影，使用rotation_matrix()函数创建了一个进行三维旋转的旋转矩阵，可以运行代码进行随机旋转并观察结果。得到的结果如下图所示：

1.3 照相机矩阵的分解

如果给定一个照相机矩阵P，需要恢复内参数K以及照相机的位置t和姿势R，这种矩阵分块操作称为因子分解。

下面的代码使用RQ因子分解的方法。但这种分解方法的结果并不是唯一的，分解的结果存在二义性。由于需要限制旋转矩阵R为正定的，所以如果需要可以在求解的结果中加入变换T来改变符号。

复制代码

def factor(self):
	K, R = li.rq(self.P[:, :3])
	
	T = diag(sign(diag(K)))
	
	if li.det(T) < 0:
		T[1, 1] *= -1
		
	self.K = dot(K, T)
	self.R = dot(T, R)
	self.t = dot(li.inv(self.K), self.P[:, 3])
	
	return self.K, self.R, self.t

运行下面的代码，观察矩阵分解的结果：

复制代码

K=array([[1000,0,500],[0,1000,300],[0,0,1]])
tmp=camera.rotation_matrix([0,0,1])[:3,:3]
Rt=hstack((tmp,array([[50],[40],[30]])))
cam=camera.Camera(dot(K,Rt))

print(K,Rt)
print(cam.factor())

运行结果：

1.4 计算照相机中心

给定照相机投影矩阵P，可以计算出空间上照相机的所在位置。照相机中心为C，是一个三维点，满足约束条件PC=0。对于投影矩阵为P=K[R|t]照相机可以通过下述式子计算C：

下面的代码可以按照上述公式返回机选照相机的中心：

复制代码

def center(self):
	if self.c is not None:
		return self.c
	else:
		self.factor()
		self.c = -dot(self.R.T, self.t)
		
		return self.c

2 照相机标定

标定照相机是指计算出该照相机的内参数。

具体步骤如下：

测量你选定矩形标定物体的变长dX和dY；
将照相机和标定物体放置在平面上，使得照相机的背面和标定物体平行，同时物体位于照相机图像视图的中心；
测量标定物体到照相机的距离dZ；
拍摄一幅图像来检验该设置是否正确，即标定物体的边要和图像的行和列对齐；
使用像素数来测量标定物体图像的宽度和高度。

测量到的数据写入一个辅助函数：

复制代码

def my_calibration(sz):
    row,col= sz
    fx=2555*col/2592
    fy=2586*row/1936
    K=diag([fx,fy,1])
    K[0,2]=0.5*col
    K[1,2]=0.5*row
    return K

该函数的输入参数为表示图像大小的元组，返回参数为标定矩阵。

3 以平面和标记物进行姿态估计

使用下面的代码提取两幅图像的SIFT特征，然后使用RANSAC算法稳健地估计单应性矩阵：

复制代码

sift1.process_image('qinghai1.jpg', 'im0.sift')
l0, d0 = sift.read_features_from_file('im0.sift')

sift1.process_image('qinghai2.jpg', 'im1.sift')
l1, d1 = sift.read_features_from_file('im1.sift')

matches = sift.match_twosided(d0, d1)
ndx = matches.nonzero()[0]
fp = homography.make_homog(l0[ndx, :2].T)
ndx2 = [int(matches[i]) for i in ndx]
tp = homography.make_homog(l1[ndx, :2].T)

model = homography.RansacModel()
H = homography.H_from_ransac(fp, tp, model)

该单应性矩阵将一幅图像中标记物上的点映射到另一幅图像中的对应点。定义相应的三维坐标系，使标记物在X-Y平面上，原点在标记物的某位置上。

为了检验单应性矩阵结果的正确性，需要将一些简单的三维物体放置在标记物上，下边的函数用来产生立方体上的点：

复制代码

def cube_points(c, wid):
	p = []
	p.append([c[0] - wid, c[1] - wid, c[2] - wid])
	p.append([c[0] - wid, c[1] + wid, c[2] - wid])
	p.append([c[0] + wid, c[1] + wid, c[2] - wid])
	p.append([c[0] + wid, c[1] - wid, c[2] - wid])
	p.append([c[0] - wid, c[1] - wid, c[2] - wid])
	
	p.append([c[0] - wid, c[1] - wid, c[2] + wid])
	p.append([c[0] - wid, c[1] + wid, c[2] + wid])
	p.append([c[0] + wid, c[1] + wid, c[2] + wid])
	p.append([c[0] + wid, c[1] - wid, c[2] + wid])
	p.append([c[0] - wid, c[1] - wid, c[2] + wid])
	
	p.append([c[0] - wid, c[1] - wid, c[2] + wid])
	p.append([c[0] - wid, c[1] + wid, c[2] + wid])
	p.append([c[0] - wid, c[1] + wid, c[2] - wid])
	p.append([c[0] + wid, c[1] + wid, c[2] - wid])
	p.append([c[0] + wid, c[1] + wid, c[2] + wid])
	p.append([c[0] + wid, c[1] - wid, c[2] + wid])
	p.append([c[0] + wid, c[1] - wid, c[2] - wid])
	
	return array(p).T

接下来可以实现两个视图间的相对变换：

复制代码

K = my_calibration((747, 1000))

box = cube_points([0, 0, 0.1], 0.1)

cam1 = camera.Camera(hstack((K, dot(K, array([[0], [0], [-1]])))))

box_cam1 = cam1.project(homography.make_homog(box[:, :5]))

box_trans = homography.normalize(dot(H,box_cam1))

cam2 = camera.Camera(dot(H, cam1.P))
A = dot(linalg.inv(K), cam2.P[:, :3])
A = array([A[:, 0], A[:, 1], cross(A[:, 0], A[:, 1])]).T
cam2.P[:, :3] = dot(K, A)

box_cam2 = cam2.project(homography.make_homog(box))

第一个产生的标定矩阵就是在该图像分辨率大小下的标定矩阵，cube_points()函数产生的前五个点对应与立方体底部的点。

使用下边的代码来可视化这些投影后的点：

复制代码

im0 = array(Image.open('1.jpg'))
im1 = array(Image.open('2.jpg'))

figure()
imshow(im0)
plot(box_cam1[0, :], box_cam1[1, :], linewidth=3)
title('2D projection of bottom square')
axis('off')

figure()
imshow(im1)
plot(box_trans[0, :], box_trans[1, :], linewidth=3)
title('2D projection transfered with H')
axis('off')

figure()
imshow(im1)
plot(box_cam2[0, :], box_cam2[1, :], linewidth=3)
title('3D points projected in second image')
axis('off')

show()

为了能够之后再次使用，可以使用Pickle将这些照相机矩阵保存起来：

复制代码

import pickle

with open('ar_camera.pkl', 'w') as f:
	pickle.dump(K, f)
	pickle.dump(dot(linalg.inv(K), cam2.P), f)

4 增强现实

增强现实(Augmented Reality，简称 AR)，是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术。它把原本在现实世界的一定时间空间范围内很难体验到的实体信息(视觉信息,声音,味道,触觉等),通过科学技术模拟仿真后再叠加到现实世界被人类感官所感知,从而达到超越现实的感官体验。

4.1 PyGame和PyOpenGL

PyGame是非常流行的游戏开发工具包，它可以简单的处理现实窗口、输入设备、事件，以及其他内容。

PyOpenGL是OpenGL图形编程的Python绑定接口。OpenGL可以安装在几乎所有的系统上，并且具有很好的图形性能。OpenGL具有跨平台性，能够在不同的操作系统之间工作。

4.2 从照相机矩阵到OpenGL格式

OpenGL 使用4×4 的矩阵来表示变换（包括三维变换和投影）。这和我们使用的 3×4 照相机矩阵略有差别。但是，照相机与场景的变换分成了两个矩阵，GL_PROJECTION 矩阵和GL_MODELVIEW 矩阵GL_PROJECTION 矩阵处理图像成像的性质，等价于我们的内标定矩阵 K。GL_MODELVIEW 矩阵处理物体和照相机之间的三维变换关系，对应于我们照相机矩阵中的R 和 t 部分。一个不同之处是，假设照相机为坐标系的中心，GL_MODELVIEW 矩阵实际上包含了将物体放置在照相机前面的变换。

假设我们已经获得了标定好的照相机，即已知标定矩阵 K，下面的函数可以将照相机参数转换为 OpenGL 中的投影矩阵：

复制代码

def set_projection_from_camera(K):
   """从照相机标定矩阵中获得视图"""
   glMatrixMode(GL_PROJECTION)
   glLoadIdentity()
   fx = K[0,0]
   fy = K[1,1]
   fovy = 2 * arctan(0.5*height / fy) * 180 / pi
   aspect = (width*fy) / (height * fx)
   # 定义近的和圆的裁剪平面
   near = 0.1       far = 100.0
   gluPerspective(fovy, aspect, near, far)
   glViewport(0, 0, width, height)

4.3 在图像中放置物体

复制代码

import pickle
from pylab import *
from OpenGL.GL import * 
from OpenGL.GLU import * 
from OpenGL.GLUT import * 
import pygame, pygame.image 
from pygame.locals import *
from PCV.geometry import homography, camera
from PCV.localdescriptors import sift
import cv2
#绘制立方体
def cube_points(c, wid):
    p = []
    # bottom
    p.append([c[0]-wid, c[1]-wid, c[2]-wid])
    p.append([c[0]-wid, c[1]+wid, c[2]-wid])
    p.append([c[0]+wid, c[1]+wid, c[2]-wid])
    p.append([c[0]+wid, c[1]-wid, c[2]-wid])
    p.append([c[0]-wid, c[1]-wid, c[2]-wid]) #same as first to close plot   
    # top
    p.append([c[0]-wid, c[1]-wid, c[2]+wid])
    p.append([c[0]-wid, c[1]+wid, c[2]+wid])
    p.append([c[0]+wid, c[1]+wid, c[2]+wid])
    p.append([c[0]+wid, c[1]-wid, c[2]+wid])
    p.append([c[0]-wid, c[1]-wid, c[2]+wid]) #same as first to close plot    
    # vertical sides
    p.append([c[0]-wid, c[1]-wid, c[2]+wid])
    p.append([c[0]-wid, c[1]+wid, c[2]+wid])
    p.append([c[0]-wid, c[1]+wid, c[2]-wid])
    p.append([c[0]+wid, c[1]+wid, c[2]-wid])
    p.append([c[0]+wid, c[1]+wid, c[2]+wid])
    p.append([c[0]+wid, c[1]-wid, c[2]+wid])
    p.append([c[0]+wid, c[1]-wid, c[2]-wid])
    return array(p).T 
def my_calibration(sz):
    row, col = sz
    fx = 758*col/640
    fy = 752*row/480
    K = diag([fx, fy, 1])
    K[0, 2] = 0.5*col
    K[1, 2] = 0.5*row
    return K
def set_projection_from_camera(K): 
    glMatrixMode(GL_PROJECTION) 
    glLoadIdentity()
    fx = K[0,0] 
    fy = K[1,1] 
    fovy = 2*math.atan(0.5*height/fy)*180/math.pi 
    aspect = (width*fy)/(height*fx)
    near = 0.1 
    far = 100.0
    gluPerspective(fovy,aspect,near,far) 
    glViewport(0,0,width,height)
def set_modelview_from_camera(Rt): 
    glMatrixMode(GL_MODELVIEW) 
    glLoadIdentity()
    Rx = np.array([[1,0,0],[0,0,-1],[0,1,0]])
    R = Rt[:,:3] 
    U,S,V = np.linalg.svd(R) 
    R = np.dot(U,V) 
    R[0,:] = -R[0,:]
    t = Rt[:,3]
    M = np.eye(4) 
    M[:3,:3] = np.dot(R,Rx) 
    M[:3,3] = t
    M = M.T
    m = M.flatten()
    glLoadMatrixf(m)
def draw_background(imname):
    bg_image = pygame.image.load(imname).convert() 
    bg_data = pygame.image.tostring(bg_image,"RGBX",1)
    glMatrixMode(GL_MODELVIEW) 
    glLoadIdentity()
 	glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT)
	glEnable(GL_TEXTURE_2D) 
 	glBindTexture(GL_TEXTURE_2D,glGenTextures(1)) 
 	glTexImage2D(GL_TEXTURE_2D,0,GL_RGBA,width,height,0,GL_RGBA,GL_UNSIGNED_BYTE,bg_data) 
    glTexParameterf(GL_TEXTURE_2D,GL_TEXTURE_MAG_FILTER,GL_NEAREST)
    glTexParameterf(GL_TEXTURE_2D,GL_TEXTURE_MIN_FILTER,GL_NEAREST)
    glBegin(GL_QUADS) 
    glTexCoord2f(0.0,0.0); glVertex3f(-1.0,-1.0,-1.0) 
    glTexCoord2f(1.0,0.0); glVertex3f( 1.0,-1.0,-1.0) 
    glTexCoord2f(1.0,1.0); glVertex3f( 1.0, 1.0,-1.0) 
    glTexCoord2f(0.0,1.0); glVertex3f(-1.0, 1.0,-1.0) 
    glEnd()
    glDeleteTextures(1)
def draw_teapot(size):
    glEnable(GL_LIGHTING) 
    glEnable(GL_LIGHT0) 
    glEnable(GL_DEPTH_TEST) 
    glClear(GL_DEPTH_BUFFER_BIT)
    glMaterialfv(GL_FRONT,GL_AMBIENT,[0,0,0,0]) 
 	glMaterialfv(GL_FRONT,GL_DIFFUSE,[0.5,0.0,0.0,0.0]) 
 	glMaterialfv(GL_FRONT,GL_SPECULAR,[0.7,0.6,0.6,0.0]) 
 	glMaterialf(GL_FRONT,GL_SHININESS,0.25*128.0) 
 	glutSolidTeapot(size)
def drawFunc(size):  # 白色茶壶
    glRotatef(0.5, 5, 5, 0)  # (角度,x,y,z)
    glutWireTeapot(size)
    # 刷新显示
    glFlush()
width, height = 1000, 747
def setup():  # 设置窗口和pygame环境
    pygame.init()
    pygame.display.set_mode((width, height), OPENGL | DOUBLEBUF)
    pygame.display.set_caption("OpenGL AR demo")
sift.process_image('D:\\123\图像处理\Image Processing\Image Processing\Chapter 4\\book_frontal.JPG', 'im0.sift')
l0, d0 = sift.read_features_from_file('im0.sift')
sift.process_image('D:\\123\图像处理\Image Processing\Image Processing\Chapter 4\\book_perspective.JPG','im1.sift')
l1, d1 = sift.read_features_from_file('im1.sift') 
matches = sift.match_twosided(d0, d1)
ndx = matches.nonzero()[0]
fp = homography.make_homog(l0[ndx, :2].T)
ndx2 = [int(matches[i]) for i in ndx]
tp = homography.make_homog(l1[ndx2, :2].T)
model = homography.RansacModel()
H, inliers = homography.H_from_ransac(fp, tp, model)
K = my_calibration((747, 1000))
box = cube_points([0, 0, 0.1], 0.1)
cam1 = camera.Camera(hstack((K, dot(K, array([[0], [0], [-1]]))))) 
box_cam1 = cam1.project(homography.make_homog(box[:, :5]))
box_trans = homography.normalize(dot(H, box_cam1))
cam2 = camera.Camera(dot(H, cam1.P))
A = dot(linalg.inv(K), cam2.P[:, :3])
A = array([A[:, 0], A[:, 1], cross(A[:, 0], A[:, 1])]).T
cam2.P[:, :3] = dot(K, A)
#使用第二个照相机矩阵投影
box_cam2 = cam2.project(homography.make_homog(box))
Rt = dot(linalg.inv(K), cam2.P)
setup()
draw_background("D:\\123\图像处理\Image Processing\Image Processing\Chapter 4\\book_perspective.bmp")
set_projection_from_camera(K)
set_modelview_from_camera(Rt)
draw_teapot(0.05)  # 显示红色茶壶
#drawFunc(0.05)  # 显示白色空心茶壶
pygame.display.flip()
while True:
    for event in pygame.event.get():
        if event.type == pygame.QUIT:
            sys.exit()