当前位置: 首页 > news >正文

Skywork UniPic:新一代多模态模型,集图像理解、生成和编辑于一体,效率极高

概述

本研究提出的 Skywork UniPic 是一个 1.5B 参数的自回归模型,它将图像理解、从文本生成图像和图像编辑集成在一个架构中。

传统上,许多多模态人工智能在单独的模型和适配器中处理理解、生成和编辑,导致性能分散和推理成本增加。
UniPic 采用了 “解耦编码策略”,在一个共同的 LLM 骨干上连接了以生成为重点的屏蔽自回归(MAR)编码器和以理解为重点的 SigLIP2 编码器,从而实现了特定任务优化和相互知识转移。此外,该系统还结合了 1 亿规模的高质量数据集、带有奖励模型的数据质量管理以及从 256 像素到 1024 像素的渐进式分辨率扩展学习,从而在 RTX 4090 等常见 GPU 环境中实现高清图像生成。

评估结果表明,GenEval 0.86、DPG-Bench 85.5 和 GEdit-Bench 5.83 等模型具有很高的性能,与同等规模和尺度的现有集成模型相比具有很强的竞争力。

建议的方法

Skywork UniPic 的主要特点是采用 “解耦编码策略”,将图像理解、生成和编辑高效集成到一个模型中。

在生成任务中,使用 MAR 编码器-解码器支持高分辨率合成,同时保持像素级保真度。

另一方面,理解任务使用 SigLIP2 编码器进行语义丰富的特征提取。

两者通过独立的 MLP 投影层连接到 15 亿参数的 Qwen2.5 主干网,从而通过统一的自回归处理实现任务间的知识共享。

学习以四级课程结构进行,从 MAR 预学习、MAR-LLM 对齐、任务集成优化到利用奖励模型的 SFT。
数据质量保证使用在 GRPO 和 Skywork-EditReward 上训练的 Skywork-ImgReward(专门保证编辑准确性),以建立可用于各种编辑和生成场景的数据集,同时消除低质量样本。

实验

实验在三个领域进行:图像生成、图像编辑和图像理解。

在图像生成任务中,使用了 GenEval(建设性理解)和 DPG-Bench(长指令跟踪),UniPic 在 GenEval 中的准确率为 0.86,在 DPG-Bench 中的准确率为 85.5。
在单个对象生成、多个对象组合和位置理解方面,UniPic 的准确率尤其高。

在编辑任务方面,UniPic 在 GEdit-Bench 和 ImgEdit-Bench 分别取得了 5.83 和 3.49 的高分,在行为编辑和风格修改等特定类别中表现出了优势。
比较对象包括 OmniGen2 和 BAGEL 等集成模型,以及 ICEdit 和 Step1X-Edit 等专业编辑模型。

此外,UniPic 还能在 RTX 4090 上生成 1024 x 1024 分辨率的图像,GPU 内存不足 15 GB,这证明了它作为集成式多模态基础设施模型的实用性,在性能、效率和多功能性方面取得了良好的平衡。

http://www.cnnetsun.cn/news/101214.html

相关文章:

  • EmotiVoice是否支持方言合成?当前进展说明
  • EmotiVoice语音合成系统灰度总结报告撰写框架
  • EmotiVoice语音合成系统负载均衡部署方案探讨
  • 基于SSM框架的后台管理系统设计与实现
  • Python基础练习5.按顺序输出整数
  • 毕设救星:Spring Boot + Vue 打造“数字非遗”——中华传统文化展示与文创众筹平台
  • 政策模型出现再平衡:美联储主席遴选路径反转,哈塞特在“联储独立性约束条件”下明确立场
  • 医院信息科经常听到的那些话
  • 校园实验室|基于springboot 校园实验室管理系统(源码+数据库+文档)
  • AI的下一个十年,属于Agent!读懂这篇,你就抓住了未来十年的最大红利!
  • 基于springboot + vue律师咨询系统(源码+数据库+文档)
  • 基于springboot + vue动物园管理系统(源码+数据库+文档)
  • 锐捷网络设备(盒式交换机,路由器,EG网关,无线AC、AP)恢复出厂设置
  • 锐捷RG-AP220-E胖模式配置
  • 2026毕设ssm+vue基于框架的临时摊位管理系统论文+程序
  • 重磅推出!郑老师团队26年22门统计课程,发文即可退款
  • jQuery EasyUI 布局 - 创建折叠面板
  • jQuery EasyUI 布局 - 动态添加标签页(Tabs)
  • 基于 YOLOv8 + DeepSORT + PyQt5 构建的 多目标车辆测速系统 多目标跟踪和车辆测速 (1)
  • 告别手动计算:安全区域适配效率提升300%
  • 33、Ubuntu服务器故障排查指南
  • 从零开始:解决brew命令不存在的完整指南
  • 详解!30+基于YOLO开源框架视频AI算法,覆盖低空经济无人机巡检、海康/大华摄像头,城市综合治理、智慧工地、森林巡检
  • MySQL变长字段的庖丁解牛
  • EmotiVoice能否生成客服安抚语音?共情语调设计
  • xxx is not in the sudoers file. This incident will be reported问题解决
  • 电商网站Nginx部署实战:高并发场景优化方案
  • h5嵌入鸿蒙跳转支付宝支付,报错:Syntax error:JSON Parse error:Expected ‘}‘
  • 传统VS现代:Docker容器启动效率对比实验
  • Vue小白必看:5分钟搞懂Vue2和Vue3的区别