当前位置：首页 > news >正文

Unified Medical Image Pre-training in Language-Guided Common Semantic Space》在语言引导的公共语义空间中进行统一医学图像预训练

news 2026/6/1 12:43:48

1. 研究背景和意义

近年来，视觉-语言预训练（VLP）在医学图像分析领域展现出了巨大的潜力，它能够利用放射学报告中的监督信息有效地学习视觉表示，从而减少对昂贵人工标注的依赖 1。然而，目前的医学VLP研究主要集中在单模态数据（主要是2D X射线图像）上。在现实的医疗场景中，医学图像涵盖了多种模态，特别是具有不同维度的模态（如2D的X射线和3D的CT扫描）。由于缺乏成对的多维度数据（即同一患者同时拥有2D和3D图像），将VLP应用于学习统一的医学图像表示仍然是一个未解的挑战 2。解决这一问题对于综合利用多模态数据、全面理解患者健康状况具有重要的科研和临床意义。

图 1：促使在视觉语言预训练（VLP）中采用语言引导策略来整合二维和三维医学图像的观察结果。

2. 当前研究综述

在医学图像分析领域，自监督学习（SSL）技术已被广泛开发，如拼图和修复任务，近期也有研究尝试使用3D CNN架构来处理不同维度的数据，如UniMiSS和Joint框架，旨在克服维度障碍并生成通用的预训练权重 3。然而，这些方法相对较少关注不同类型医学数据之间的内在联系。在医学视觉-语言预训练方面，如Gloria和MGCA等方法通过对比图像子区域和报告文本来学习表示，在2D图像任务上表现出色，但受限于大规模3D图像-文本数据集的匮乏，其在3D领域的应用受限 4。尽管有一些尝试将3D数据转换为2D切片，但这往往导致了原始3D结

查看全文

http://www.cnnetsun.cn/news/26185.html