计算机图形学-变换
概述
用来记录计算机图形学中关于变换的相关知识,内容并不详尽,只记录了我认为比较重要的内容。
齐次坐标与仿射变换
对二维空间中的向量\((x, y)\) 加入第三维的值 \(w\),即可表示齐次坐标(需要归一化,同除以\(w\)):
- 二维空间中的点 = \((x, y, 1)^\top\)
- 二维空间中的向量 = \((x, y, 0)^\top\)
可以满足以下的操作:
- 向量 + 向量 = 向量
- 点 - 点 = 向量
- 点 + 向量 = 点
- 点 + 点 = 两点的中点
用齐次坐标表示二维仿射变换
仿射变换 = 线性变换(缩放/镜像/旋转等) + 平移(非线性变换) \[ \begin{pmatrix} x^\prime \\ y^\prime \\ 1 \end{pmatrix} = \begin{pmatrix} a & b & t_x \\ c & d & t_y \\ 0 & 0 & 1 \end{pmatrix} \cdot \begin{pmatrix} x \\ y \\ 1 \end{pmatrix} \]
表示先进行线性变换,再平移
其中三种重要的变换为:
缩放 \[ S(s_x, s_y) = \begin{pmatrix} s_x & 0 & 0 \\ 0 & s_y & 0 \\ 0 & 0 & 1 \end{pmatrix} \]
旋转(以原点为旋转中心逆时针) \[ R(\alpha) = \begin{pmatrix} \cos \alpha & -\sin \alpha & 0 \\ \sin \alpha & \cos \alpha & 0 \\ 0 & 0 & 1 \end{pmatrix} \] 其中\(R(\alpha) ^ \top = R(\alpha)^{-1}\)是正交矩阵
可以这样理解:
\(R(\alpha)^{-1}\)表示旋转\(\alpha\)的逆变换,即旋转\(-\alpha\)角度,可以表示为 \[ R(\alpha)^{-1} = R(-\alpha) = \begin{pmatrix} \cos (-\alpha) & -\sin (-\alpha) \\ \sin (-\alpha) & \cos (-\alpha) \end{pmatrix} = \begin{pmatrix} \cos \alpha & \sin \alpha \\ -\sin \alpha & \cos \alpha \end{pmatrix} = R(\alpha) ^ \top \]
平移
\[ T(t_x, t_y) = \begin{pmatrix} 1 & 0 & t_x \\ 0 & 1 & t_y \\ 0 & 0 & 1 \end{pmatrix} \]
变换的组合
先平移后旋转:
先旋转后平移:
因为矩阵乘法不满足交换律,多种变换组合起来时从右向左运算
因为矩阵满足结合律,n个变换矩阵可以先做乘法,最后组合起来时维数不变。
变换的分解
因为旋转矩阵默认绕原点旋转,如果我们需要表示一个绕任意点旋转的变换,则需要用到矩阵的分解。
表示为: \[ T(c) \cdot R(\alpha) \cdot T(-c) \]
三维变换中的旋转
沿三个坐标轴旋转:
需要注意的是\(R_y(\alpha)\)中\(\sin \alpha\)的正负比较特殊,是因为在右手坐标系下,Z轴 \(\times\) X轴 = Y轴,而不是X轴 \(\times\) Z轴。
对于任意三维旋转,使用欧拉角来表示: \[ R_{xyz}(\alpha, \beta, \gamma) = R_x(\alpha)R_y(\beta)R_z(\gamma) \] 对应的角度分别叫做:roll,pitch,yaw
沿着任意方向轴旋转(过原点)
方向向量为\(\vec n\),单位矩阵\(I\) \[ R(\vec n, \alpha) = \cos(\alpha)I + (1 - \cos(\alpha))\vec n \vec n^\top + \sin(\alpha) \begin{pmatrix} 0 & -\vec n_z & \vec n_y \\ \vec n_z & 0 & -\vec n_x \\ -\vec n_y & \vec n_x & 0 \end{pmatrix} \] 四元数
用于解决万向节死锁,有利于旋转与旋转之间的角度差值。
观测变换 Viewing trans
包括模型变换、视图/相机变换以及投影变换。
也称作MVP(Model-View-Projection)变换
模型变换 Model trans
用于定义物体与物体之间的位置关系。
视图/相机变换 View/Camera trans
定义相机的位置:
- 相机的位置(Position):\(\vec e\)
- 相机朝向(Look-at/gaze direction):\(\vec g\)
- 相机向上方向(Up direction):\(\vec t\)
下面为了表示方便,用 \(x_g\) 来表示 \(\vec g\) 在X轴的分量,其他同理。
将相机的位置固定(标准位置):相机放在原点,朝Z轴负方向看,上方为Y轴
\(M_{view}\)计算:
将\(\vec e\)平移到原点 \[ T_{view} = \begin{pmatrix} 1 & 0 & 0 & -x_e \\ 0 & 1 & 0 & -y_e \\ 0 & 0 & 1 & -z_e \\ 0 & 0 & 0 & 1 \end{pmatrix} \]
将\(\vec g\)旋转到-Z,将\(\vec t\)旋转到Y,将\(\vec g \times \vec t\)旋转到X
该旋转矩阵定义为 \(R_{view}\) , \(R_{view}\) 不好直接求值,可以利用旋转的正交矩阵特性: \(R_{view}^{-1} = R_{view}^\top\)
求得: \[ R_{view}^{-1} = \begin{pmatrix} x_{\hat g \times \hat t} & x_t & x_{-g} \\ y_{\hat g \times \hat t} & y_t & y_{-g} \\ z_{\hat g \times \hat t} & z_t & z_{-g} \end{pmatrix} \]
可以验证: \[ R_{view}^{-1} \cdot \begin{pmatrix}1\\0\\0\end{pmatrix} = \begin{pmatrix}x_{\hat g \times \hat t} \\ y_{\hat g \times \hat t} \\ z_{\hat g \times \hat t} \end{pmatrix} \] 即可将X轴的单位向量变换成 \(\hat g \times \hat t\)的方向。
也可以理解成 \(R_{view}^{- 1}\) 的三个列向量分别是在就坐标系下表示的新坐标系的基向量。
由于正交矩阵的性质: \[ R_{view} = (R_{view}^{-1})^\top = \begin{pmatrix} x_{\hat g \times \hat t} & y_{\hat g \times \hat t} & z_{\hat g \times \hat t} & 0 \\ x_t & y_t & z_t & 0 \\ x_g & y_g & z_g & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \] 所以视图变换的矩阵可以表示为:
\[ M_{view}=R_{view}T_{view} \]
注意是先平移再旋转。
投影变换 Projection trans
在计算机图形学中,投影是从三维空间向二维空间的变换(不可逆,因为缺失了一个维度的信息)
一般认为投影变换有两种:正交投影(Orthographic projection)和透视投影(Perspective projection)
有以下性质:
- 正交投影不会改变三维空间中的平行关系,透视投影有可能改变平行关系。
- 正交投影可以认为是相机离成像平面无限远时的透视投影。
正交投影 Orthographic projection
简单可以理解为将Z轴去除掉,就可以得到一个二维的平面
在计算机图形学中,更标准的做法是将物体的 轴对齐包围盒(Axis Align Bounding Box,简称AABB) 变换到 标准立方体(Canonical Cube,即\([-1, 1]^3\)),具体经过两步:
> AABB变量定义: > - X轴的最小值\(l\)(left),X轴的最大值\(r\)(right) > - Y轴的最小值\(b\)(bottom),Y轴的最大值\(t\)(top) > - Z轴的最小值\(f\)(far),Z轴的最大值\(n\)(near) 1. 将AABB的中心平移至原点 2. 将AABB缩放至标准立方体(边长为2)
即可得出: \[ M_{ortho} = \begin{pmatrix} \frac{2}{r - l} & 0 & 0 & 0 \\ 0 & \frac{2}{t - b} & 0 & 0 \\ 0 & 0 & \frac{2}{n - f} & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 0 & 0 & -\frac{r + l}{2} \\ 0 & 1 & 0 & -\frac{t + b}{2} \\ 0 & 0 & 1 & -\frac{n + f}{2} \\ 0 & 0 & 0 & 1 \end{pmatrix} \]
暂时不考虑旋转,且映射到标准立方体的过程中会导致物体被拉伸或缩放,后续还会进行视口变换。
透视投影 Perspective projection
透视投影的成像空间是一个 视锥(Frustum) 我习惯叫六面台体,而正交投影的成像空间是长方体。
而正交投影我们已经能理解并推导出变换矩阵,那就可以将透视投影的成像空间(六面台体)变化成正交投影的成像空间(长方体),再进行正交投影,这样不就是一次透视投影吗。
考虑人在远处可以看到更多的物体,但最后成像必然都是与近处物体在同一二维平面(视网膜)上,且远处物体会变小(被压缩了),相当于人眼进行透视投影的时候也是将远处的空间压缩到与近处相同,即长方体成像空间。所以将透视投影分成两步:压缩成像空间和正交投影是合理的。
现在关注如何 压缩/变换成像空间,在计算机图形学中可以做以下假设:
- 最近平面(成像平面)上的所有点经过透视投影 不变。
- 最远平面上的所有点的Z值在变换成像空间后 不变。
- 最远平面上的中心点的坐标在变换成像空间后 不变。
可以将变换成像空间定义为矩阵:\(M_{p\to o}\)
从X轴负方向看Y-Z平面:
从原点(相机)出发,近平面的点 \((x^\prime, y^\prime, z^\prime)\) 与成像空间内任意一点 \((x, y, z)\) 在同一直线上,在经过\(M_{p\to o}\)变换后这两个点应该x和y都相同。即 \(M_{p\to o}\) 应该使: \[ \begin{cases} y^\prime = \frac{n}{z} y \\[2ex] x^\prime = \frac{n}{z} x \end{cases} \] 因为只假设了远近两平面的点的Z坐标不变,而成像空间内其他的点(即上述的坐标 \((x, y, z)\) )的Z坐标不知道应该怎么变化,所以对以上的变化规则可写成表达式: \[ M_{p \to o}^{(4\times 4)}\begin{pmatrix} x\\y\\z\\1\end{pmatrix} =\begin{pmatrix} nx/z \\ ny/z \\ \rm{unknown} \\ 1 \end{pmatrix} \overset {\times z}{=} \begin{pmatrix} nx \\ ny \\ \rm{unknown} \\ z \end{pmatrix} \]
这里利用了齐次坐标的性质,齐次坐标使用时需要归一化,最后一项永远会是1
可以分析得:
\[ M_{p \to o} = \begin{pmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ ? & ? & ? & ? \\ 0 & 0 & 1 & 0\end{pmatrix} \]
同时,根据我们之前的假设,最近平面上的点 \((x, y, n, 1)\) 变化前后是不变的,可得:
\[ M_{p\to o}^{(4\times 4)} \begin{pmatrix} x \\ y \\ n \\ 1 \end{pmatrix} = \begin{pmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ A & B & C & D \\ 0 & 0 & 1 & 0\end{pmatrix} \begin{pmatrix} x \\ y \\ n \\ 1 \end{pmatrix} == \begin{pmatrix} nx \\ ny \\ n^2 \\ n \end{pmatrix} \]
其中ABCD为未知量
针对\(M_{p\to o}^{(4\times 4)}\)的第三个行向量 \((A, B, C, D)\) 可以列出: \[ (A, B, C, D)\begin{pmatrix} x \\ y \\ n \\ 1 \end{pmatrix} == n^2 \] 分析可得,\(n^2\)是一个常量,与AABB有关,与取的任意点 \((x, y, z, 1)\) 无关,所以 \(A = 0\) 且 \(B = 0\) , \(C\) 和 \(D\) 不好判断,即可列出等式: \[ Cn + B = n^2 \] 同理,最远平面上的所有点\((x, y, f, 1)\)变化前后Z轴上的值不变,即可列出: \[ Cf+B=f^2 \]
省略了过程:
\[ M_{p\to o}^{(4\times 4)} \begin{pmatrix} x \\ y \\ f \\ 1 \end{pmatrix} = \begin{pmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & C & D \\ 0 & 0 & 1 & 0\end{pmatrix} \begin{pmatrix} x \\ y \\ f \\ 1 \end{pmatrix} == \begin{pmatrix} nx \\ ny \\ f^2 \\ f \end{pmatrix} \]
列方程可解: \[ \begin{cases} Cn + B = n^2 \\[2ex] Cf + B = f^2 \end{cases} \Longrightarrow \begin{cases} C = n + f \\[2ex] D = -nf \end{cases} \]
可得: \[ M_{p\to o} = \begin{pmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n + f & -nf \\ 0 & 0 & 1 & 0\end{pmatrix} \] 综上可得,投影变换可以写为:
\[ M_{persp} = M_{ortho}M_{p \to o} = \begin{pmatrix} \frac{2}{r - l} & 0 & 0 & -\frac{r + l}{2} \\ 0 & \frac{2}{t - b} & 0 & -\frac{t + b}{2} \\ 0 & 0 & \frac{2}{n - f} & -\frac{n + f}{2} \\ 0 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n + f & -nf \\ 0 & 0 & 1 & 0 \end{pmatrix} \]
思考:成像空间中的任意一点经过 \(M_{p \to o}\) 变换后Z轴的分量如何变化?
对于任意一点 \((x,y ,z,1)\) ,经过变换:
\[ \begin{pmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n + f & -nf \\ 0 & 0 & 1 & 0\end{pmatrix} \begin{pmatrix} x \\ y \\ z \\ 1 \end{pmatrix} = \begin{pmatrix} nx \\ ny\\ (n + f)z - nf \\ z \end{pmatrix} = \begin{pmatrix} nx /z \\ ny/z \\ n + f - nf/z \\ 1 \end{pmatrix} \]
关于n和f的意义是Z轴上的坐标,此时 \(f < n\) ,下面的函数中可以看做是近远平面到相机的距离,此时 \(n < f\) ,此种改变并不会影响上述推导。
设 \(f(z) = -nf /z +n + f\) 是变换前后Z轴分量的映射关系,可以看出是关于z的反比例函数的变形,可以验证 \(f(n)=n\) , \(f(f)=f\) ,故可以画出函数图像:
可以看出当 \(n < z < f\) 时,\(f(z) < g(z)\) ,故在进行压缩成像空间时,六面台体内的点被挤向了远处。
我个人对这种现象的看法是:在六面台体的成像空间中,单位空间的信息量是相同的,在经过 \(M_{p \to o}\) 变换后六面台体的后部被挤压导致形成的长方体成像空间中的单位空间信息密度更大,所以整体上空间中的点更靠后集中。
总结
本篇记录了计算机图形学中关于坐标变换的部分内容,主要参考了GAMES101
我文章里的内容并不全面,可能后续会补充内容。