当前位置: 首页 > news >正文

多模态RAG技术总结及知识图谱构建分割+抽取+验证三阶段思路

文章介绍了组合式多模态RAG技术演进与知识图谱构建方法。多模态RAG涵盖预检索、检索、增强和生成四个阶段,包含多种模态组合与实现策略;OntoMetric框架通过结构感知分割、本体引导抽取和两阶段验证,将ESG政策文档转化为结构化知识图谱,解决实体不一致与关系幻觉问题。


继续看技术进展,看RAG进展,看一个组合式多模态RAG总结性梳理,看看这块有哪些思路。

另一个是知识图谱构建进展,看看一个分割+抽取+验证做知识图谱构建思路-OntoMetric

多总结,多归纳,**多从底层实现分析逻辑,**会有收获。

一、组合式多模态RAG总结性梳理

RAG作为一种范式,可以灵活扩展,可以来个暴力组合,写综述。变成从文本RAG到多模态输入-文本输出,再到多模态输入-多模态输出的一个演进。

这块,看一个技术总结,如《A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and Output》,https://doi.org/10.36227/techrxiv.176341513.38473003/v2,https://github.com/INTREBID/Awesome-MM-RAG,所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。一共54个。

看几个点

1、看不同输入输出组合的代表方案

2、看核心流程

如下所示,看看几个核心流程:

预检索阶段,关键操作是知识库准备(4种组织方式:单模态嵌入、成对存储、统一嵌入、图构建)和查询准备(5种优化技术:扩展、改写、转换、dropout、多查询);

检索阶段,关键操作是检索器选择(稀疏、密集、其他3类)、策略制定(混合、分层等)和时机控制(单次、迭代、自适应3种),常用方法包括BM25、CLIP、混合检索

增强阶段,关键操作是上下文处理(重排序、选择、压缩)和优化(噪声注入、融合),常用方法有FiE(编码器内融合)、FiD(解码器内融合);

生成阶段,关键操作是生成器构建(5大组件)和增强(提示工程、MLLM微调),常用方法包括StableDiffusion(图像生成)、LoRA微调。

3、看训练策略

训练策略分为两类。

一类是参数冻结策略:直接复用现成模块,无参数更新,适用场景为快速部署、数据标注不足或低计算资源环境,代表研究有PICa、VideoRAG,优势是训练成本低、组件复用性强,劣势是任务适配性有限;

一类是参数可训练策略:包含模块化训练(独立优化各组件,适用场景为需针对性提升特定组件性能的场景,代表研究有VisRAG、RACC,优势是灵活度高、易维护,劣势是组件协同性不足)和端到端训练(联合优化检索器与生成器,适用场景为追求最优系统性能的场景,代表研究有RA-VQA、ReVeaL,优势是性能最优,劣势是计算成本高、部署灵活度差)。

二、分割+抽取+验证做知识图谱构建思路-OntoMetric

继续看一个知识图谱构建的思路,背景是SASB、TCFD、IFRSS2等框架要求企业报告大量ESG指标,相关规则嵌入长文本、非结构化PDF,包含定义、公式、单位等复杂信息,但是人工提取耗时、易错、难以应对框架更新。传统自动化关键词匹配/手工规则缺乏语义覆盖,无法处理复杂依赖。

无约束LLM提取容易出现实体不一致、关系幻觉、缺失溯源,验证失败率高,现有ESG本体又仅含形式化schema,缺乏自然语言描述。

所以,可以细分下实现,拆成多步。

具体的看这个工作《OntoMetric: An Ontology-Guided Framework for Automated ESG Knowledge Graph Construction》(https://arxiv.org/pdf/2512.01289),搞了一套“自动把ESG政策文档变成规整可用的知识图谱”的流程,核心是用“先拆分、再提取、后校验”的思路解决“文档乱、提取不准、没法审计”的问题。

1、结构感知分割,基于目录(TOC)边界划分文档

ESG政策文档(比如SASB、TCFD)都是几百页的PDF,直接扔给AI提取容易乱。

所以先按文档自带的“目录”拆分,比如“绿色气体排放”“数据安全”这些章节,each章节作为一个“小块”。每个小块都记着自己来自文档的哪几页、原来的标题,方便后续追溯来源。

具体实现上,步骤为:step1.识别目录页面与标题,确定自然分割边界;->step2.合并跨页表格,清理布局冗余;->step3.保留片段标题、页面范围、sectionID等元数据;->step4.确保片段为完整概念单元(如指标定义、公式)

2、本体引导LLM提取

抽取上,如下:

先告诉AI要提取5类信息(实体):行业(比如银行业)、披露框架(比如SASB)、分类(比如环境类指标)、具体指标(比如碳排放强度)、计算模型(比如碳排放怎么算);也就是一个是ESGMKGschema,包括5类实体(Industry、ReportingFramework、Category、Metric、Model)、5类关系谓词、7条结构规则;再定好这些信息之间的关系(比如“银行业”用“SASB框架”,“SASB框架”包含“环境类指标”);

给一个固定模板,让它把提取的信息填成结构化的JSON(比如指标名称、单位、描述都按固定字段填),一个是提示词设计,含系统上下文、本体连接图、实体定义等9个组件;

提取时记着每个信息来自哪个小块、哪一页,避免后续找不到源头。

最后把所有小块的提取结果合并,去掉重复的信息,解析JSON、添加溯源元数据、跨片段整合(ID解析+实体/关系去重)。

3、两阶段验证

为了解决实体不一致、关系幻觉、缺失溯源、验证失败率高的问题,缓解思路是语义验证+规则化schema验证来实现。

两阶段验证层:先通过LLM校验实体类型匹配度,再用6条规则检查结构合规性,剔除幻觉内容;同时全程保留片段/页面级溯源,解决溯源缺失问题。

拆开来看这个验证问题:

两阶段验证分为语义验证(Phase1)和schema验证(Phase2),两阶段结合使验证后的知识图谱同时满足语义正确性与结构有效性

一个是语义验证,由LLM执行,核心作用是校验每个实体的标签和描述是否与其分配的ESGMKG类型匹配,直接剔除类型错误的实体及依赖关系,解决“实体类型幻觉”问题,减少后续无效校验,例如确认提取的“碳排放强度”确实是ESG指标,而不是财务指标(比如净利润),防止类型认错

一个是schema验证,基于6条预定义规则执行,核心作用是保障结构合规性,具体包括:

1)实体验证,实体ID必须全局唯一;

2)实体验证,实体需包含类型特定的必填字段;

3)属性验证,指标的代码(code)和单位(unit)不可为空;

4)属性验证,模型(Model)需至少包含一个有效输入变量;

5)关系验证,仅允许ESGMKG定义的5类关系谓词

6)关系验证,每个计算型指标(CalculatedMetric)需精确关联一个模型(Model)

如下:

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

《AI大模型从0到精通全套学习包》

如果你想要提升自己的能力却又没有方向?

想学大模型技术去帮助就业和转行又不知道怎么开始?

那么这一套**《AI大模型零基础入门到实战全套学习大礼包》以及《大模型应用开发视频教程》**一定可以帮助到你!

限免0元!👇👇

1

全套AI大模型应用开发视频教程

(包含深度学习、提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

2

大模型入门到实战全套学习大礼包

01

大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

02

大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

03

AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

04

大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

05

大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

*这些资料真的有用吗?*

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

06

以上全套大模型资料如何领取?

👆🏻用微信加上就会给你发

无偿分享

遇到扫码问题可以私信或评论区找我

http://www.cnnetsun.cn/news/26380.html

相关文章:

  • 如何快速掌握YOLOv12:实时目标检测的完整实践指南
  • PINNs-Torch:用PyTorch轻松实现物理信息神经网络
  • JavaScript学习笔记:5.函数
  • Apache Kvrocks数据库部署实战:从零到一的完整搭建教程
  • 16、远程系统管理与安全防护指南
  • 施耐德BMENOC0321C:高性能模块化驱动控制器(增强通信版)
  • 金融人转AI:从入门到上手,我的“证书认证+技能”学习路线分享
  • 模块化多电平变换器MMC(20子模块、21电平,工作条件220kV(AC)/400kV(DC)...
  • 生态共舞!恭喜10家企业荣获“2025龙蜥社区最佳联合解决方案奖”
  • Java常见开发框架大比拼:Jeesite 、jeecgBoot、smartAdmin、ruoyi
  • IDEA(2020版)实现HttpServletRequest对象
  • 跨平台开发框架选型指南:Uniapp、React Native、Flutter
  • 数字孪生软件开发公司
  • springboot基于vue的校园报修管理系统设计与实现_t45k51ip
  • 嵌入式彩屏单色字体点阵的存储结构设计
  • 《Medical Vision Generalist: Unifying Medical Imaging Tasks in Context》(医学视觉通才:在上下文中统一医学成像任务)的
  • 西安电子科技大学专属信纸模板:3分钟打造专业学术形象
  • 【每日一题】PCIe答疑 - 接大量 GPU 时主板不认设备或无法启动和MMIO的可能关系?
  • 富有的哈佛人 —— 储蓄:财富积累的第一块基石
  • 终极指南:快速掌握eventpp事件处理库的8种集成方法
  • 光刻胶用二正丁基胺增感剂:
  • Spyder vs Jupyter:科学计算效率大比拼
  • 【第八天】08c#今日小结
  • Windows临时文件夹清理指南:释放C盘空间
  • AI助力:用自然语言生成复杂tar命令,告别记忆负担
  • 三相L型并网逆变器:dq坐标系下的控制系统设计与Simulink仿真模型搭建
  • RBP神经网络PID自适应控制模型(Matlab仿真模型及详解资料包,省去PID参数调节
  • 华为OD机试双机位C卷 - 挑选宝石 (C++ Python JAVA JS GO)
  • 用ROS2快速验证机器人创意:48小时开发挑战
  • 光伏电池电网能量管理控制策略模型仿真与优化在Simulink平台下的研究