当前位置: 首页 > news >正文

图像理解:如何理解图像的频率?

1. 为什么图像也有“频率”?

一提到“频率”,很多人会先想到声音或者时间信号,比如一秒振动多少次。图像中的频率不是时间上的快慢,而是空间上的变化快慢

  • 如果一幅图像亮度变化很慢,比如天空从左到右缓慢变亮,那么它主要包含低频成分。
  • 如果一幅图像亮度变化很快,比如密集条纹、细小纹理、锐利边缘,那么它包含更多高频成分。

因此,图像频率描述的是:像素值在空间中变化得有多快,以及这种变化沿着什么方向发生。

2. 二维图像的傅里叶变换公式

对一幅大小为M x N的离散图像f(x, y),它的二维离散傅里叶变换可以写成:

F(u,v)=∑x=0M−1∑y=0N−1f(x,y)e−j2π(uxM+vyN) F(u,v)=\sum_{x=0}^{M-1}\sum_{y=0}^{N-1} f(x,y)e^{-j2\pi\left(\frac{ux}{M}+\frac{vy}{N}\right)}F(u,v)=x=0M1y=0N1f(x,y)ej2π(Mux+Nvy)

其中:

  • f(x, y)表示原图在位置(x, y)处的像素值。
  • F(u, v)表示频域中坐标(u, v)对应的复数系数。
  • e^{-j2\pi(...)}可以理解为一组二维正弦/余弦基底。

这条公式的本质是:把原图分解成很多不同方向、不同快慢的二维波,再计算每一类波在原图中占多大权重。

3. 如何理解“分量权重”?

傅里叶变换后的F(u, v)不是一个普通实数,而是一个复数。它可以写成:

F(u,v)=R(u,v)+jI(u,v) F(u,v)=R(u,v)+jI(u,v)F(u,v)=R(u,v)+jI(u,v)

这里:

  • R(u, v)是实部;
  • I(u, v)是虚部。

进一步,又可以把它写成极坐标形式:

F(u,v)=∣F(u,v)∣ejϕ(u,v) F(u,v)=|F(u,v)|e^{j\phi(u,v)}F(u,v)=F(u,v)ejϕ(u,v)

这里有两个最关键的量:

  • 幅度|F(u,v)|:表示这个频率分量有多强,也就是它的权重大小。
  • 相位\phi(u,v):表示这个频率分量如何与空间结构对齐。

直观地说:

  • 幅度回答“图像里有哪些频率,谁更重要”;
  • 相位回答“这些频率怎样组合,才能还原出原来的形状和位置”。

很多初学者会觉得相位图看起来像噪声,但相位其实决定了图像的结构轮廓。没有相位,图像很难保留原来的形状信息。

4. 用二维单位冲击函数理解“频率分量”

二维单位冲击函数可以写成:

δ(x,y)={1,(x,y)=(0,0)0,其他位置 \delta(x,y)= \begin{cases} 1, & (x,y)=(0,0) \\ 0, & \text{其他位置} \end{cases}δ(x,y)={1,0,(x,y)=(0,0)其他位置

对它做二维傅里叶变换:

F(u,v)=F{δ(x,y)}=1 F(u,v)=\mathcal{F}\{\delta(x,y)\}=1F(u,v)=F{δ(x,y)}=1

因此它的幅度谱为:

∣F(u,v)∣=1 |F(u,v)|=1F(u,v)=1

这说明:单位冲击函数在频域中的所有频率分量都存在,而且幅度完全相同。

如果冲击点位于原点,那么相位谱可以看成整体一致:

∠F(u,v)=0 \angle F(u,v)=0F(u,v)=0

如果冲击点从原点移动到(x0,y0)(x_0,y_0)(x0,y0),空间域函数变成:

δ(x−x0,y−y0) \delta(x-x_0,y-y_0)δ(xx0,yy0)

根据傅里叶变换的平移性质:

F{δ(x−x0,y−y0)}=e−j2π(ux0+vy0) \mathcal{F}\{\delta(x-x_0,y-y_0)\}= e^{-j2\pi(ux_0+vy_0)}F{δ(xx0,yy0)}=ej2π(ux0+vy0)

此时幅度谱仍然为:

∣e−j2π(ux0+vy0)∣=1 \left|e^{-j2\pi(ux_0+vy_0)}\right|=1ej2π(ux0+vy0)=1

但相位谱变为:

∠F(u,v)=−2π(ux0+vy0) \angle F(u,v)=-2\pi(ux_0+vy_0)F(u,v)=2π(ux0+vy0)

这说明:

  • 幅度谱更关心“有哪些频率、每种频率有多强”;
  • 相位谱更关心“这些频率如何排列、图像结构出现在什么位置”。

5. 频谱图、实部三维图、虚部三维图、相位谱三维图怎么看?

为了更方便观察,我们通常会把零频率移动到图像中心。这样图中的中心位置对应低频,离中心越远通常表示频率越高。理解这一点之后,就可以分别去读四类图。

5.1 幅度谱说明什么,怎么看?

幅度谱最直接,它回答的是:哪些频率分量强,哪些频率分量弱。

看图时抓住三点:

  1. 先看中心高峰。中心越高,说明低频越强,图像整体越平滑。
  2. 再看远离中心的位置。如果外围还有明显峰值,说明图像中存在较强边缘、纹理或重复结构。
  3. 最后看峰值分布方向。某一方向上峰更突出,通常说明图像在对应方向上存在更明显的结构变化。

5.2 相位谱说明什么,怎么看?

相位谱主要说明:频率分量是怎样组合起来形成空间结构的。

看图时不要只盯着高低起伏,而要理解它反映的是“对齐关系”和“位置关系”:

  1. 相位谱不像幅度谱那样用来判断能量大小。
  2. 它更适合解释轮廓、边界和结构为什么能落在当前这个位置。
  3. 如果幅度不变而相位改变,图像的形状组织方式会明显变化。

所以,相位谱的重点不是“哪里最高”,而是“它如何控制结构”。

5.3 实部三维图说明什么,怎么看?

实部三维图反映的是复数频谱中余弦分量一侧的投影。

看图时要注意:

  1. 它既受幅度影响,也受相位影响。
  2. 它的正负变化会让表面出现起伏、谷地和翻转。
  3. 单独看实部,通常不能直接等同于“频率强弱”,但能帮助我们理解复数权重是怎样组成的。

5.4 虚部三维图说明什么,怎么看?

虚部三维图反映的是复数频谱中正弦分量一侧的投影。

读法和实部类似:

  1. 看它的整体起伏,而不是只看某一个峰值。
  2. 它与实部一起决定完整频谱。
  3. 如果只看虚部,也无法完整恢复图像,但它是构成复数频谱不可缺少的一半。

因此,实部和虚部最适合作为“理解复数频率分量内部结构”的图,而不是替代幅度谱。

6. 选取一张真实图片做傅里叶分析

这次不再使用程序合成图,而是选取一张真实建筑照片作为分析对象。原因很直接:建筑图像同时包含大面积明暗区域、清晰边缘、重复线条和透视结构,既适合解释低频与高频,也适合说明方向性频率。

本文使用的是一张楼梯建筑照片。它的视觉特征包括:

  • 大面积墙面和阴影,提供明显的低频背景;
  • 台阶、栏杆和边缘线,提供大量高频信息;
  • 斜向透视结构,使频谱中出现有方向性的能量分布。

相比合成图,真实图片更接近实际图像分析场景,也更能说明傅里叶变换为什么对图像理解有价值。

7. 幅度谱三维图分析

幅度谱三维图如下:

可以观察到几个核心现象:

  1. 三维图中心通常会抬起成一个明显高峰,表示低频能量最集中。这对应建筑照片中的大轮廓、阴影渐变和大面积平滑区域。
  2. 中心高峰之外的起伏和脊线,反映了图像中的边缘和重复结构,主要来自楼梯台阶、栏杆和建筑轮廓。
  3. 如果某个方向的起伏更明显,说明该方向上存在更强的结构变化,这和楼梯的透视方向是一致的。
  4. 离中心更远的较小峰值属于高频部分,主要对应锐利边界和局部细节。

所以,幅度谱三维图最适合回答的问题是:这幅图像主要由哪些频率组成,各种频率的强弱如何分布。

8. 相位谱三维图分析

相位谱三维图如下:

相位谱三维图通常不像幅度谱那样容易直接解释“能量大小”,但它非常重要。原因在于:

  • 幅度更多告诉我们“频率能量分布”;
  • 相位更多决定“结构放在哪里、边界如何对齐、形状怎样组织”。

如果只保留幅度而丢掉相位,重建出来的结果通常只剩下模糊的能量轮廓;如果保留相位,楼梯的层次、边界位置和整体透视关系更容易被保住。这说明相位对结构表达具有决定作用。

9. 实部三维图与虚部三维图分析

实部三维图如下:

虚部三维图如下:

实部和虚部共同组成复数频谱:

F(u,v)=R(u,v)+jI(u,v) F(u,v)=R(u,v)+jI(u,v)F(u,v)=R(u,v)+jI(u,v)

可以这样理解:

  • 实部更接近余弦分量的投影;
  • 虚部更接近正弦分量的投影。

在真实建筑图像中,实部和虚部会把不同方向、不同位置的结构混合编码进去,所以它们单独看时不如幅度图直观。但从数学上说,正是实部和虚部一起,完整决定了频域信息。

因此:

  • 幅度图适合解释“强不强”;
  • 相位图适合解释“怎么摆”;
  • 实部和虚部适合解释“复数权重的内部构成”。

10. 傅里叶变换的本质

理解傅里叶变换,关键不在于死记公式,而在于抓住下面这句话:

傅里叶变换就是把一幅图像拆解成许多不同方向、不同频率的波,并为每个波分配一个复数权重。

这个复数权重包含两层信息:

  • 幅度:这个波在图像中占多少;
  • 相位:这个波在空间中怎样对齐。

所以,“频率”并不是一个抽象符号,而是图像中亮度变化速度的量化表达。

11. 总结

通过这次分析,可以把二维图像傅里叶变换理解为一个“从空间域到频率域”的观察方式:

  • 在空间域里,我们直接看图像长什么样;
  • 在频率域里,我们看图像由哪些变化模式组成。

最终记住三点就够了:

  1. 低频对应平滑区域和整体轮廓,高频对应边缘、细节和纹理。
  2. 幅度描述频率分量的强弱,相位决定结构和位置。
  3. 傅里叶变换的本质是分解与加权,而不是简单地“把图变花”。

当建立起这三点认识后,再去学习滤波、压缩、去噪、超分辨率等内容,就会更容易理解其中的频域思想。

http://www.cnnetsun.cn/news/2639000.html

相关文章:

  • 告别熬夜肝论文!paperxie 毕业论文写作功能,把学术写作流程拆成了 “填空题”
  • 终极指南:免费开源风扇控制软件FanControl完整配置教程
  • 告别枯燥教程:用3个趣味ROS2小项目(如语音控制小车、视觉跟随)重新点燃学习动力
  • 大规模3D高斯重建!HeadsUp:10000+受试者训练,无需测试优化
  • 基于树莓派与OpenCV的ATM头盔检测系统:嵌入式视觉安防实战
  • 基于运放电路实现吉他调音器:从模拟信号处理到频率检测实战
  • 对话AI技术选型:GPT-3大模型与传统管道方案的深度对比与实战指南
  • 儿童护眼灯真的护眼吗?劣质儿童护眼灯损伤视力,千万别忽视!
  • 市面上有哪些是真正高效的降AIGC网站(轻松压低AI生成疑似率)
  • PowerMem 记忆系统的遗忘设计,从神经元到代码工程 (十四)
  • 基于MediaPipe与TensorFlow的手势识别系统:从关键点检测到树莓派部署
  • 自己动手搭个AI大模型?没那么玄乎
  • ECCV2020 ParSeNet源码实战:手把手教你用PyTorch复现3D点云参数化曲面拟合
  • 别再只用RSA了!在.NET 6/8里试试国密SM2,性能与合规性双赢
  • 基于Arduino与超声波传感器的智能安全防护系统设计与实现
  • 5个简单有效的内存优化技巧:让Windows电脑告别卡顿的完整指南
  • D2DX三大黑科技:让经典暗黑2在现代PC上重获新生
  • 核心系统迁移的最高目标:为什么DBA都在追求数据“零闪断”?
  • 联想刃7000K BIOS隐藏功能解锁指南:3个关键步骤释放硬件潜力
  • 5分钟快速上手:B站m4s缓存视频免费无损转换终极方案
  • 别再只用普通卷积了!聊聊ODConv:如何用‘注意力’让模型在移动端更轻更强
  • Dell Q1财报深度解读:AI收入暴增757%,服务器厂商的春天来了?
  • 别再折腾蓝屏了!用这个一键脚本搞定Ubuntu 18.04的XRDP远程桌面
  • ViGEmBus:Windows内核级游戏控制器虚拟化架构解析
  • 多智能体工作流的循环与分支:状态机与条件逻辑设计
  • ThinkPad双风扇终极控制指南:TPFanCtrl2完全使用教程
  • Arduino Uno R4 WiFi板载RTC与LED矩阵实现数字时钟
  • 用Arduino Uno与TEA5767模块改造复古收音机:硬件选型与软件编程全指南
  • 百度网盘Python API深度解析:构建企业级文件自动化管理系统
  • 别再傻傻分不清!一文搞懂PCIe信号增强:Retimer和Redriver到底怎么选?