【图像处理基石】通过立体视觉重建建筑高度：原理、实操与代码实现

在智慧城市、无人机测绘、古建筑保护等场景中，快速准确获取建筑高度是核心需求之一。相较于传统激光雷达（LiDAR）的高成本，基于双目相机的立体视觉技术凭借低成本、易部署的优势，成为中小型场景下建筑高度重建的优选方案。本文将从基础原理出发，逐步拆解立体视觉重建建筑高度的完整流程，并提供可直接运行的Python代码，帮助开发者快速上手。

一、立体视觉重建高度的核心原理

立体视觉的本质是模拟人类双眼"视差测距"的机制------通过两个相机从不同角度拍摄同一建筑，利用图像间的"视差"计算建筑各点到相机的距离（深度），最终结合相机参数推导建筑高度。

关键概念需先明确：

双目相机模型：两个相机（左相机、右相机）需保持平行且光轴共面，形成"基线"（两相机光心的距离，记为B）。
视差（Disparity） ：同一空间点在左、右图像中像素坐标的水平差值（记为d），公式为 d = x_left - x_right（x为像素横坐标）。
深度计算 ：根据三角测量原理，空间点到相机的深度（Z）满足 Z = (B × f) / d，其中f为相机焦距（像素单位）。
高度推导：建筑高度 = 建筑顶部深度对应的物理坐标 - 建筑底部深度对应的物理坐标，需结合相机坐标系与世界坐标系的转换。

二、完整技术流程：从数据到高度

立体视觉重建建筑高度需经过5个核心步骤，每个步骤的精度直接影响最终结果，需严格把控操作细节。

步骤1：数据采集（关键前提）

数据采集决定后续重建精度，需满足两个核心要求：

相机摆放：双目相机需固定在同一平面，保持光轴平行（可使用三脚架+校准板调整），基线长度B建议为1-2米（过短会降低视差精度，过长易导致特征匹配失败）。
拍摄内容：需同时拍摄建筑全貌，确保建筑底部（如地面）和顶部（如屋顶）完整出现在左右图像中，且避免逆光、遮挡（遮挡会导致视差计算缺失）。

步骤2：双目相机标定（核心基础）

相机标定的目的是获取内参（焦距f、主点坐标cx/cy、畸变系数）和外参（两相机间的旋转矩阵R、平移向量T），消除镜头畸变对后续计算的影响。

常用工具与流程：

打印棋盘格标定板（如9×6角点，方格尺寸20mm）；
用双目相机从不同角度拍摄15-20张标定板图像；
使用OpenCV的calibrateCamera和stereoCalibrate函数计算内参和外参；
保存标定结果（如内参矩阵M1/M2、畸变系数dist1/dist2、基线B=T $0$ ）。

步骤3：图像预处理与特征匹配

预处理可提升后续视差计算的精度，特征匹配需确保左右图像的同名点正确对应：

预处理 ：通过灰度化（cvtColor）、高斯滤波（GaussianBlur）、直方图均衡化（equalizeHist）降低噪声、增强对比度；
特征匹配 ：推荐使用SIFT或ORB算法（ORB更高效，适合实时场景），通过FlannBasedMatcher匹配左右图像的特征点，再用RANSAC算法剔除误匹配点。

步骤4：视差图计算与深度恢复

视差图是深度计算的直接输入，需选择合适的算法平衡精度与速度：

常用算法：SGBM（半全局块匹配）算法，相较于传统BM算法，抗噪性更强、视差连续性更好，适合建筑这类结构化场景；
关键操作 ：通过OpenCV的StereoSGBM_create函数设置窗口大小、视差范围（如minDisparity=0，numDisparities=128），输出视差图后需转换为真实视差值（消除负数值）；
深度计算 ：代入公式 Z = (B × f) / d（d为视差值），得到建筑各点的深度数据。

步骤5：建筑高度计算

需先确定建筑底部和顶部在图像中的像素位置，再通过深度数据推导物理高度：

像素定位：手动点击（或通过目标检测算法自动识别）左图像中"建筑底部点P1"和"建筑顶部点P2"的像素坐标（x1,y1）、（x2,y2）；
深度获取：从深度图中提取P1和P2对应的深度值Z1、Z2；
坐标转换 ：将像素坐标转换为相机坐标系下的三维坐标（X1,Y1,Z1）、（X2,Y2,Z2），公式为：
- X = (x - cx) × Z / f
- Y = (y - cy) × Z / f
高度计算：建筑高度H = |Y2 - Y1|（Y轴为垂直方向，需确保相机坐标系Y轴与重力方向一致）。

三、实操代码：基于Python+OpenCV实现

以下代码涵盖"相机标定→视差计算→高度重建"的核心环节，可直接替换自己的图像和标定参数运行。

1. 双目相机标定代码

python 复制代码

import cv2
import numpy as np
import glob

# 1. 准备标定板参数
chessboard_size = (9, 6)  # 棋盘格内角点数量
square_size = 0.02  # 棋盘格方格尺寸（单位：米）
objp = np.zeros((chessboard_size[0]*chessboard_size[1], 3), np.float32)
objp[:, :2] = np.mgrid[0:chessboard_size[0], 0:chessboard_size[1]].T.reshape(-1, 2)
objp *= square_size  # 转换为物理坐标

# 2. 存储标定板角点（世界坐标+图像坐标）
objpoints = []  # 世界坐标系中的角点
imgpoints_l = []  # 左相机图像中的角点
imgpoints_r = []  # 右相机图像中的角点

# 3. 读取左右相机标定图像
images_l = glob.glob('calib_left/*.jpg')
images_r = glob.glob('calib_right/*.jpg')

for img_l, img_r in zip(images_l, images_r):
    # 读取图像并灰度化
    img_l_gray = cv2.cvtColor(cv2.imread(img_l), cv2.COLOR_BGR2GRAY)
    img_r_gray = cv2.cvtColor(cv2.imread(img_r), cv2.COLOR_BGR2GRAY)
    
    # 查找棋盘格角点
    ret_l, corners_l = cv2.findChessboardCorners(img_l_gray, chessboard_size, None)
    ret_r, corners_r = cv2.findChessboardCorners(img_r_gray, chessboard_size, None)
    
    # 若找到角点，亚像素优化并存储
    if ret_l and ret_r:
        objpoints.append(objp)
        # 亚像素优化
        corners_l = cv2.cornerSubPix(img_l_gray, corners_l, (11, 11), (-1, -1), 
                                    (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 30, 0.001))
        corners_r = cv2.cornerSubPix(img_r_gray, corners_r, (11, 11), (-1, -1), 
                                    (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 30, 0.001))
        imgpoints_l.append(corners_l)
        imgpoints_r.append(corners_r)

# 4. 执行双目相机标定
ret, M1, dist1, M2, dist2, R, T, E, F = cv2.stereoCalibrate(
    objpoints, imgpoints_l, imgpoints_r, img_l_gray.shape[::-1],
    None, None, None, None, flags=cv2.CALIB_FIX_INTRINSIC
)

# 5. 保存标定结果
np.savez('stereo_calib.npz', M1=M1, dist1=dist1, M2=M2, dist2=dist2, R=R, T=T)
print("标定完成，参数已保存至 stereo_calib.npz")

2. 视差计算与高度重建代码

python 复制代码

import cv2
import numpy as np

# 1. 加载标定参数
calib_data = np.load('stereo_calib.npz')
M1, dist1 = calib_data['M1'], calib_data['dist1']
M2, dist2 = calib_data['M2'], calib_data['dist2']
T = calib_data['T']  # 平移向量，基线B = T[0]
f = M1[0, 0]  # 左相机焦距（像素单位）
cx, cy = M1[0, 2], M1[1, 2]  # 左相机主点坐标

# 2. 读取左右图像并去畸变
img_l = cv2.imread('left_building.jpg')
img_r = cv2.imread('right_building.jpg')
h, w = img_l.shape[:2]

# 去畸变（使用标定参数校正镜头畸变）
newcameramtx1, roi1 = cv2.getOptimalNewCameraMatrix(M1, dist1, (w, h), 1, (w, h))
newcameramtx2, roi2 = cv2.getOptimalNewCameraMatrix(M2, dist2, (w, h), 1, (w, h))
img_l_undist = cv2.undistort(img_l, M1, dist1, None, newcameramtx1)
img_r_undist = cv2.undistort(img_r, M2, dist2, None, newcameramtx2)

# 3. 计算视差图（SGBM算法）
sgbm = cv2.StereoSGBM_create(
    minDisparity=0,
    numDisparities=128,  # 需为16的倍数
    blockSize=5,
    P1=8 * 3 * 5**2,  # 平滑项参数
    P2=32 * 3 * 5**2,
    disp12MaxDiff=1,
    uniquenessRatio=15,
    speckleWindowSize=100,
    speckleRange=32
)
disp = sgbm.compute(cv2.cvtColor(img_l_undist, cv2.COLOR_BGR2GRAY), 
                    cv2.cvtColor(img_r_undist, cv2.COLOR_BGR2GRAY))
disp = cv2.normalize(disp, disp, alpha=0, beta=255, norm_type=cv2.NORM_MINMAX, dtype=cv2.CV_8U)  # 归一化便于显示

# 4. 手动选择建筑底部和顶部点（可替换为目标检测自动识别）
def click_event(event, x, y, flags, param):
    if event == cv2.EVENT_LBUTTONDOWN:
        param.append((x, y))
        cv2.circle(img_l_undist, (x, y), 5, (0, 0, 255), -1)
        cv2.imshow('Select Building Points (Bottom -> Top)', img_l_undist)

points = []
cv2.imshow('Select Building Points (Bottom -> Top)', img_l_undist)
cv2.setMouseCallback('Select Building Points (Bottom -> Top)', click_event, points)
cv2.waitKey(0)
cv2.destroyAllWindows()

# 5. 计算建筑高度
if len(points) == 2:
    (x1, y1), (x2, y2) = points  # 底部点P1，顶部点P2
    d1 = disp[y1, x1]  # P1的视差值
    d2 = disp[y2, x2]  # P2的视差值
    B = abs(T[0])  # 基线长度（米）
    
    # 计算深度（Z）和相机坐标系Y坐标
    Z1 = (B * f) / d1 if d1 != 0 else 0
    Z2 = (B * f) / d2 if d2 != 0 else 0
    Y1 = (y1 - cy) * Z1 / f  # P1的Y坐标（垂直方向）
    Y2 = (y2 - cy) * Z2 / f  # P2的Y坐标（垂直方向）
    
    height = abs(Y2 - Y1)
    print(f"建筑高度估算结果：{height:.2f} 米")
else:
    print("请选择2个点（底部和顶部）")

# 显示视差图
cv2.imshow('Disparity Map', disp)
cv2.waitKey(0)
cv2.destroyAllWindows()

四、常见问题与优化方向

在实际操作中，可能会遇到视差图噪声大、高度误差超标的问题，可通过以下方法优化：

1. 视差图噪声问题

原因：图像纹理少（如建筑墙面纯色）、光照不均；
解决方案：
- 预处理增加"导向滤波"（cv2.ximgproc.guidedFilter），平滑视差图同时保留边缘；
- 调整SGBM算法的blockSize（纹理少则增大，如9-11）和speckleRange（噪声多则减小，如16-24）。

2. 高度计算误差大

原因：相机标定精度低、建筑点选择偏差；
解决方案：
- 标定板拍摄时增加角度覆盖（如俯视、仰视），确保角点分布均匀；
- 替换手动选点为目标检测（如YOLOv8检测建筑底部和顶部），减少人为误差。

3. 进阶优化方向

设备升级：使用工业级双目相机（如Basler）替代普通USB相机，提升内参稳定性；
算法升级：结合深度学习（如PSMNet）生成更高精度的视差图，适合复杂场景；
多视角融合：使用3个以上相机拍摄，通过光束平差法（Bundle Adjustment）优化三维重建结果。

五、总结

基于立体视觉的建筑高度重建，核心是通过"标定-匹配-视差-深度"的流程，将二维图像信息转化为三维物理坐标。本文提供的代码可实现基础场景的高度重建，若需应用于高精度场景（如测绘验收），需进一步优化相机标定精度和视差算法。

后续可尝试结合无人机航拍，实现大范围建筑群体的高度批量重建，为智慧城市建设提供低成本的数据支撑。