当前位置: 首页 > news >正文

LAMIC:一种无需学习、布局可控的多参考图像生成方法

概述

本文提出了一种新方法,即 LAMIC,用于在可控图像生成过程中使用多张参考图像进行带有布局信息的高质量合成。

传统的扩散模型在基于单个参考图像生成时具有优势,但在处理多个参考图像时,会出现 "不一致的身份退化 "和 "布局崩溃 "等问题。
此外,许多现有方法需要额外的训练和大型数据集,限制了其通用性和可扩展性。

LAMIC 基于多模态扩散变换器 (MMDiT),这是一种无需学习的零拍摄方法,可生成多个图像和文本,并结合区域规范(边界框和掩码)。
特别是,它引入了使用群体隔离注意力(GIA)的实体分离和使用区域调制注意力(RMA)的布局控制,以忠实再现空间布局,同时防止语义混淆。

在评估实验中,它在身份保持、背景一致性和布局准确性等指标上都优于现有方法,并在多参考和复杂组合中表现出卓越的性能。
由于采用了无需额外学习的高效框架,这项研究在电影制作和叙事生成等实际应用中显示出巨大的潜力。

建议的方法

LAMIC 的核心思想是构建一种标记表示法,将参考图像、文本描述和布局信息整合在一起,然后将其输入 MMDiT,从而实现多参考图像的一致合成。

首先,每个参照物都被定义为一个 VTS 三元组,由视觉(V)、文本(T)和空间(S)三个元素组成,并添加了实体之间的关系(跨实体交互,CEI)和非控制区域(U)。

然后,这些信息被转换成一个综合的标记序列,并在 MMDiT 中作为一致的表征进行处理。
在此过程中,将引入组隔离注意(GIA),以拦截每个 VTS 组之间不必要的相互干扰,防止不同实体的特征混杂在一起。

此外,还在生成的早期阶段应用区域调制注意力(RMA),以保持每个空间区域的独立性,并在后期阶段将它们整合在一起。

这样就能准确再现角色定位和背景一致性,并能处理复杂的布局。

重要的是,该方法不需要额外的训练或微调,可以直接扩展现有的单一参考模型,因此在实际操作中既高效又通用。

实验

为了评估所提出的 LAMIC 方法,作者在现有的 XVerseBench 数据集上扩展了各种参考图像(人物、动物、物体、衣服和场景)和相应的布局信息。

在实验设置中,使用了两张、三张和四张参考图像作为输入,并在多个指标上进行了性能比较,包括 ID 保留率 (ID-S)、背景相似度 (BG-S)、外观一致性 (IP-S) 和美学评价 (AES)。

此外,还使用了新提出的包含率(IN-R)和填充率(FI-R)来定量评估产品对布局指示的遵从程度。

结果表明,LAMIC 在所有情况下的平均得分(AVG)都优于现有方法,尤其是在 ID 保留和背景一致性方面。

即使在难度极高的三页和四页参考任务中,LAMIC 也比传统方法平均提高了 4 到 8 分。

此外,消融实验也证实了这两种机制的有效性,去除 GIA 和 RMA 后,性能显著下降。

此外,通过调整 RMA 的应用比例,观察到了布局精度和整体视觉平滑度之间的权衡,得出的结论是 0.05 的比例是最佳的。

总之,LAMIC 无需额外学习就能达到最先进的性能,并有可能成为多参考图像合成的新标准。

http://www.cnnetsun.cn/news/143862.html

相关文章:

  • Lsyncd排除路径配置终极指南:避开常见陷阱
  • 为什么中国的量化基金不去“收割”美股?揭秘A股成为“量化天堂”的四大惊人原因
  • 告别“从零开始”,百考通源码图纸库,你的项目开发加速器!
  • 构建电商智能决策支持平台
  • Bazel插件生态:3步解决多语言项目构建难题
  • 高端成果与需求端断层如何破局?区域科技创新体系可借助知识产权智能运营平台实现闭环的体系化竞争壁垒。
  • 技术转移机构如何借助生成式AI赋能工具重塑差异化服务优势?
  • 57、SQL 网络与分布式数据库全解析
  • MeshLabelImageColor 读取医学标签图像数据(MetaImage 格式)
  • 61、SQL 中的抽象数据类型与继承机制
  • 69、SQL 的现状与未来:专业数据库与市场趋势洞察
  • 68、专业数据库:低延迟、内存与流处理的应用与发展
  • eRPC数据中心网络高效RPC终极配置指南
  • 零基础玩转Moondream2:智能看图说话神器快速上手指南
  • Hasklig编程字体:用连字技术彻底改变你的代码阅读体验
  • 深度解析 Redisson:不仅仅是 Redis 客户端,更是分布式协作利器
  • Kubernetes可视化管理新体验:告别命令行,拥抱kubeasz Dashboard
  • 实战指南:构建基于Google API的自动化SEO监控系统
  • Recon-ng数据导出终极指南:5分钟掌握情报呈现技巧
  • PostHog容器化部署终极方案:从业务价值到技术实现的高效配置指南
  • Rust Web开发完整教程:realworld-axum-sqlx实战指南
  • Tuya-Local终极指南:如何快速配置本地涂鸦设备实现全屋智能控制
  • 基于SpringBoot的高校科研工作管理系统(源码+lw+部署文档+讲解等)
  • 基于springboot + vue电影院购票管理系统
  • Hasklig字体:为什么它能让你的代码阅读体验提升300%?
  • Neovim LSP配置终极指南:快速搭建现代化开发环境
  • IT-Tools终极指南:Vue 3 + TypeScript打造开发者效率神器
  • Weylus 终极指南:3步将平板变身手绘板
  • WeasyPrint终极指南:从HTML到PDF的完整解决方案
  • 基于java + vue校园外卖系统(源码+数据库+文档)