一、概述
增强现实技术(Augmented Reality,简称 AR),相信大家都不再陌生,其实也就这两年才火起来。如果是 2010 年之前你跟人说 AR,基本会被认为是天方夜谭。没有合适的硬件平台,与大众消费市场距离太远,只能算是实验室里的玩具。后面智能手机一出,情况就不一样了,相机、大屏幕(相比功能机),这两个关键器件的存在,以及硬件计算能力的突飞猛进,AR 技术有了落地的基础,于是乎大量的 AR 应用如雨后春笋冒出来。特别是今年 Pokemon Go 的发布,脑洞一下子就打开了,大众对 AR 技术的憧憬越来越强烈。
AR
顾名思义,增强现实是对现实的增强。广义地来看,“增强现实”早已覆盖生活中的方方面面,比如在树干上覆盖 LED 灯,营造艺术效果;比如在鬼屋里放置一些声源,制造恐怖气氛;甚至喷香水,都是对现实的增强,提升人视觉、听觉、嗅觉等感官上的感受。当然这些都是用实物来增强现实,显得没那么有科技感。
AR
而通常所说的增强现实,指的是用虚拟内容来做视觉上的增强,通过屏幕或投影设备来显示。比如常见的在手机的相机预览中展示 3D 动画(如 QQ 传火炬)、微软的 HoloLens,Google 的 Tango,还有 Magic Leap 等等。
总体上看,AR 技术的关键在于设备对周围环境的感知理解:最基本的,确定设备自身的空间位置;再高级一点的,对环境进行实时重建(SLAM);更高级的,就涉及到识别、认知和交互了。这里面,定位是最基础的,只有设备自身的位置(和朝向)精确地被确定,虚拟出来的内容才能和现实很好地结合,以达到足够的真实感,并且,该过程需要实时地进行。这也是 VR 的关键技术之一。
目前应用于移动设备上的 AR 主要有两类:基于图片标记的 AR 和基于 IMU 的 AR。
AR
QQ 传火炬是典型的基于图片标记的 AR,通过手机拍摄特定的图像(另一个用户手机上展示的火炬图片),在预览画面中叠加 3D 动画效果,移动或旋转手机,3D 动画始终与拍摄的火炬图片保持固定的位置关系,从而达到增强现实的体验。Pokemon Go 则是基于 IMU AR 的典型,即通过设备自身的陀螺仪、加速度计等传感器数据来进行定位。设备旋转可以通过陀螺仪测得,而位移则可通过加速度计测得。基于 IMU 的 AR 实现相对简单,但精度较低,且 drift 严重(累计误差越来越大),适用场景有限。
本系列文章主要讨论基于平面图片标记的 AR 技术实现,又可分为两类:Marker 和 Markerless,两者的区别主要在于图片标记是否是规则的:
- Marker:通常是黑白方格按一定编码方式构成的图片;
- Markerless:普通的图片。
相比普通图片,特定编码的 Marker 识别和跟踪都更简单,但应用上比较局限。所以现在主流的 AR 应用都是 Markerless 的,即识别一张普通的平面图片,然后在上面叠加 3D 内容,如 QQ 传火炬。
二、原理
如之前所说,AR 的关键在于设备自身的定位。而基于图片标记的 AR,就是通过相机拍摄已知图片,根据该图片在相机画面中的位置,来确定相机的空间位置,也即确定设备的空间位置。如下图主流程包括三个阶段:拍摄图像、图像处理和更新虚拟内容,其中图像处理是核心。在图像处理完成后,得到了相机的外参(Extrinsic,相机坐标系与世界坐标系的变换关系),然后应用到预览画面的叠加层(如 OpenGL 或 3D 引擎环境),更新虚拟内容的位置,就完成了整个一帧的处理过程。然后不断重复这个过程,使得设备移动后,虚拟内容始终展示在正确的位置上。
图像处理过程作为核心,又包括一些子过程,如相机内参标定、预览帧特征提取、匹配、相机外参标定等过程(其中内参标定可离线完成)。
1. 相机内参标定
相机的成像过程可以看做是将空间点变换到图像上点的过程。如果忽略相机的畸变影响,则整个变换过程都是线性的。相机内参标定的目标就是找到这个变换的参数(含畸变),从而可以用数学计算准确地刻画相机的成像过程。
在不考虑镜头畸变的情况下,可以将相机成像的变换模型表示成如下:
AR
其中 ( A ) 即为相机的内参矩阵,包括 x、y 方向上的焦距 ( f_x )、( f_y ) 和图像中心 ( c_x )、( c_y )。空间点 ( M ) 首先经过相机外参 ( [R|t] ) 变换到设备(相机)坐标系(DCS),然后经过相机内参 ( A ) 变换到图像坐标系(ICS),成像在 ( (u, v) ) 处。确定相机内参的过程即为内参标定。内参与相机的焦距、硬件工艺有关,通常可以离线完成。内参标定常采用张正友棋盘格标定法,其操作简单且精度较高:只需从不同角度拍摄同一棋盘格的图片,即可完成标定。
2. 图像特征提取与匹配
图像特征点(Key Point)又称“兴趣点”,可认为是图像上具有特定特征的局部位置标示。特征描述(Descriptor)则是表示该特征点“特征”的量,可用来区分、匹配不同的特征点。良好的特征点应该具有以下性质:
- 重复性:同一个物体或场景在不同的条件下(如旋转、尺度、光照),两幅图像中对应的特征越多越好。
- 独特性:特征的幅值模式需要呈现多样性,这样的特征才能被区分和匹配。
- 数量性:检测到的特征数目要多,但太多会对检索实时性造成影响。
- 准确性:得到的特征应该能被精确定位,包括图像空间和尺度空间上的精确定位。
- 高效性:检测和描述的时间越短越好,以便用于后续的实时应用。
其中可重复性又以旋转不变性和尺度不变性为关键。SIFT 及其改进算法 SURF 是常用的特征提取算法,FAST 则以快速闻名,适用于实时场景。
特征匹配即在提取两幅图的特征点后,根据特征点的描述子进行匹配,得到匹配点对集,以用于后续的单应矩阵计算。特征匹配可看作分类过程,如简单的基于汉明距离进行匹配,或基于 k 近邻算法进行匹配后通过比率测试减少误匹配。FLANN 是常用的特征匹配开源库。
3. 相机外参标定
相机外参标定即求取前文相机成像公式中的 ( [R|t] )。在已知相机内参的情况下,根据两幅图像间的特征点匹配点对,即可求得相机在这两幅图像间的空间位置关系(旋转 ( R ) 和平移 ( t ))。如果其中一幅图像是输入的标记图片,将其设定在世界坐标原点,该过程是计算机视觉中的 PnP(Perspective-n-Point)问题,也可看作是相机的外参标定过程。
该问题可基于直接线性变换 DLT(Direct Linear Transformation)结合最小二乘法求解,也可根据一个初始值通过迭代方法求解。外参标定过程的重点在于误匹配的去除,常采用 RANSAC 算法进行。
三、结语
VR 让人体验不一样的世界,而 AR 则是让现实世界更美好。有人把 AR 看作新的计算平台,完全不为过。试想一下,最早期的寻呼机、功能机只是提供一维的通知、电话或短信服务,到了智能机时代,大屏的出现,二维的图像、音视频成了主流,那下一个时代呢,也许3D技术、AR会是计算设备的核心能力之一。
评论区