图像理解:如何理解图像的频率?
1. 为什么图像也有“频率”?
一提到“频率”,很多人会先想到声音或者时间信号,比如一秒振动多少次。图像中的频率不是时间上的快慢,而是空间上的变化快慢。
- 如果一幅图像亮度变化很慢,比如天空从左到右缓慢变亮,那么它主要包含低频成分。
- 如果一幅图像亮度变化很快,比如密集条纹、细小纹理、锐利边缘,那么它包含更多高频成分。
因此,图像频率描述的是:像素值在空间中变化得有多快,以及这种变化沿着什么方向发生。
2. 二维图像的傅里叶变换公式
对一幅大小为M x N的离散图像f(x, y),它的二维离散傅里叶变换可以写成:
F(u,v)=∑x=0M−1∑y=0N−1f(x,y)e−j2π(uxM+vyN) F(u,v)=\sum_{x=0}^{M-1}\sum_{y=0}^{N-1} f(x,y)e^{-j2\pi\left(\frac{ux}{M}+\frac{vy}{N}\right)}F(u,v)=x=0∑M−1y=0∑N−1f(x,y)e−j2π(Mux+Nvy)
其中:
f(x, y)表示原图在位置(x, y)处的像素值。F(u, v)表示频域中坐标(u, v)对应的复数系数。e^{-j2\pi(...)}可以理解为一组二维正弦/余弦基底。
这条公式的本质是:把原图分解成很多不同方向、不同快慢的二维波,再计算每一类波在原图中占多大权重。
3. 如何理解“分量权重”?
傅里叶变换后的F(u, v)不是一个普通实数,而是一个复数。它可以写成:
F(u,v)=R(u,v)+jI(u,v) F(u,v)=R(u,v)+jI(u,v)F(u,v)=R(u,v)+jI(u,v)
这里:
R(u, v)是实部;I(u, v)是虚部。
进一步,又可以把它写成极坐标形式:
F(u,v)=∣F(u,v)∣ejϕ(u,v) F(u,v)=|F(u,v)|e^{j\phi(u,v)}F(u,v)=∣F(u,v)∣ejϕ(u,v)
这里有两个最关键的量:
- 幅度
|F(u,v)|:表示这个频率分量有多强,也就是它的权重大小。 - 相位
\phi(u,v):表示这个频率分量如何与空间结构对齐。
直观地说:
- 幅度回答“图像里有哪些频率,谁更重要”;
- 相位回答“这些频率怎样组合,才能还原出原来的形状和位置”。
很多初学者会觉得相位图看起来像噪声,但相位其实决定了图像的结构轮廓。没有相位,图像很难保留原来的形状信息。
4. 用二维单位冲击函数理解“频率分量”
二维单位冲击函数可以写成:
δ(x,y)={1,(x,y)=(0,0)0,其他位置 \delta(x,y)= \begin{cases} 1, & (x,y)=(0,0) \\ 0, & \text{其他位置} \end{cases}δ(x,y)={1,0,(x,y)=(0,0)其他位置
对它做二维傅里叶变换:
F(u,v)=F{δ(x,y)}=1 F(u,v)=\mathcal{F}\{\delta(x,y)\}=1F(u,v)=F{δ(x,y)}=1
因此它的幅度谱为:
∣F(u,v)∣=1 |F(u,v)|=1∣F(u,v)∣=1
这说明:单位冲击函数在频域中的所有频率分量都存在,而且幅度完全相同。
如果冲击点位于原点,那么相位谱可以看成整体一致:
∠F(u,v)=0 \angle F(u,v)=0∠F(u,v)=0
如果冲击点从原点移动到(x0,y0)(x_0,y_0)(x0,y0),空间域函数变成:
δ(x−x0,y−y0) \delta(x-x_0,y-y_0)δ(x−x0,y−y0)
根据傅里叶变换的平移性质:
F{δ(x−x0,y−y0)}=e−j2π(ux0+vy0) \mathcal{F}\{\delta(x-x_0,y-y_0)\}= e^{-j2\pi(ux_0+vy_0)}F{δ(x−x0,y−y0)}=e−j2π(ux0+vy0)
此时幅度谱仍然为:
∣e−j2π(ux0+vy0)∣=1 \left|e^{-j2\pi(ux_0+vy_0)}\right|=1e−j2π(ux0+vy0)=1
但相位谱变为:
∠F(u,v)=−2π(ux0+vy0) \angle F(u,v)=-2\pi(ux_0+vy_0)∠F(u,v)=−2π(ux0+vy0)
这说明:
- 幅度谱更关心“有哪些频率、每种频率有多强”;
- 相位谱更关心“这些频率如何排列、图像结构出现在什么位置”。
5. 频谱图、实部三维图、虚部三维图、相位谱三维图怎么看?
为了更方便观察,我们通常会把零频率移动到图像中心。这样图中的中心位置对应低频,离中心越远通常表示频率越高。理解这一点之后,就可以分别去读四类图。
5.1 幅度谱说明什么,怎么看?
幅度谱最直接,它回答的是:哪些频率分量强,哪些频率分量弱。
看图时抓住三点:
- 先看中心高峰。中心越高,说明低频越强,图像整体越平滑。
- 再看远离中心的位置。如果外围还有明显峰值,说明图像中存在较强边缘、纹理或重复结构。
- 最后看峰值分布方向。某一方向上峰更突出,通常说明图像在对应方向上存在更明显的结构变化。
5.2 相位谱说明什么,怎么看?
相位谱主要说明:频率分量是怎样组合起来形成空间结构的。
看图时不要只盯着高低起伏,而要理解它反映的是“对齐关系”和“位置关系”:
- 相位谱不像幅度谱那样用来判断能量大小。
- 它更适合解释轮廓、边界和结构为什么能落在当前这个位置。
- 如果幅度不变而相位改变,图像的形状组织方式会明显变化。
所以,相位谱的重点不是“哪里最高”,而是“它如何控制结构”。
5.3 实部三维图说明什么,怎么看?
实部三维图反映的是复数频谱中余弦分量一侧的投影。
看图时要注意:
- 它既受幅度影响,也受相位影响。
- 它的正负变化会让表面出现起伏、谷地和翻转。
- 单独看实部,通常不能直接等同于“频率强弱”,但能帮助我们理解复数权重是怎样组成的。
5.4 虚部三维图说明什么,怎么看?
虚部三维图反映的是复数频谱中正弦分量一侧的投影。
读法和实部类似:
- 看它的整体起伏,而不是只看某一个峰值。
- 它与实部一起决定完整频谱。
- 如果只看虚部,也无法完整恢复图像,但它是构成复数频谱不可缺少的一半。
因此,实部和虚部最适合作为“理解复数频率分量内部结构”的图,而不是替代幅度谱。
6. 选取一张真实图片做傅里叶分析
这次不再使用程序合成图,而是选取一张真实建筑照片作为分析对象。原因很直接:建筑图像同时包含大面积明暗区域、清晰边缘、重复线条和透视结构,既适合解释低频与高频,也适合说明方向性频率。
本文使用的是一张楼梯建筑照片。它的视觉特征包括:
- 大面积墙面和阴影,提供明显的低频背景;
- 台阶、栏杆和边缘线,提供大量高频信息;
- 斜向透视结构,使频谱中出现有方向性的能量分布。
相比合成图,真实图片更接近实际图像分析场景,也更能说明傅里叶变换为什么对图像理解有价值。
7. 幅度谱三维图分析
幅度谱三维图如下:
可以观察到几个核心现象:
- 三维图中心通常会抬起成一个明显高峰,表示低频能量最集中。这对应建筑照片中的大轮廓、阴影渐变和大面积平滑区域。
- 中心高峰之外的起伏和脊线,反映了图像中的边缘和重复结构,主要来自楼梯台阶、栏杆和建筑轮廓。
- 如果某个方向的起伏更明显,说明该方向上存在更强的结构变化,这和楼梯的透视方向是一致的。
- 离中心更远的较小峰值属于高频部分,主要对应锐利边界和局部细节。
所以,幅度谱三维图最适合回答的问题是:这幅图像主要由哪些频率组成,各种频率的强弱如何分布。
8. 相位谱三维图分析
相位谱三维图如下:
相位谱三维图通常不像幅度谱那样容易直接解释“能量大小”,但它非常重要。原因在于:
- 幅度更多告诉我们“频率能量分布”;
- 相位更多决定“结构放在哪里、边界如何对齐、形状怎样组织”。
如果只保留幅度而丢掉相位,重建出来的结果通常只剩下模糊的能量轮廓;如果保留相位,楼梯的层次、边界位置和整体透视关系更容易被保住。这说明相位对结构表达具有决定作用。
9. 实部三维图与虚部三维图分析
实部三维图如下:
虚部三维图如下:
实部和虚部共同组成复数频谱:
F(u,v)=R(u,v)+jI(u,v) F(u,v)=R(u,v)+jI(u,v)F(u,v)=R(u,v)+jI(u,v)
可以这样理解:
- 实部更接近余弦分量的投影;
- 虚部更接近正弦分量的投影。
在真实建筑图像中,实部和虚部会把不同方向、不同位置的结构混合编码进去,所以它们单独看时不如幅度图直观。但从数学上说,正是实部和虚部一起,完整决定了频域信息。
因此:
- 幅度图适合解释“强不强”;
- 相位图适合解释“怎么摆”;
- 实部和虚部适合解释“复数权重的内部构成”。
10. 傅里叶变换的本质
理解傅里叶变换,关键不在于死记公式,而在于抓住下面这句话:
傅里叶变换就是把一幅图像拆解成许多不同方向、不同频率的波,并为每个波分配一个复数权重。
这个复数权重包含两层信息:
- 幅度:这个波在图像中占多少;
- 相位:这个波在空间中怎样对齐。
所以,“频率”并不是一个抽象符号,而是图像中亮度变化速度的量化表达。
11. 总结
通过这次分析,可以把二维图像傅里叶变换理解为一个“从空间域到频率域”的观察方式:
- 在空间域里,我们直接看图像长什么样;
- 在频率域里,我们看图像由哪些变化模式组成。
最终记住三点就够了:
- 低频对应平滑区域和整体轮廓,高频对应边缘、细节和纹理。
- 幅度描述频率分量的强弱,相位决定结构和位置。
- 傅里叶变换的本质是分解与加权,而不是简单地“把图变花”。
当建立起这三点认识后,再去学习滤波、压缩、去噪、超分辨率等内容,就会更容易理解其中的频域思想。
