中山大学与Adobe联手突破AI生成图片“失真“难题

发布时间：2026/6/20 7:03:12

这项由中央大学Chung-Ang University计算机机器学习实验室CMLab与Adobe Research联合开展的研究以预印本形式于2026年6月13日发布在arXiv平台论文编号为arXiv:2606.15158v1。感兴趣的读者可以通过该编号在arXiv上查阅完整原文。一、一张好图为何经过AI处理后反而面目全非你有没有遇到过这样的经历手里有一张非常高清、细节丰富的参考照片比如你最喜欢的一款手提包、一个精美的陶瓷摆件或者一只毛发清晰的宠物猫然后把它交给某个AI图像生成工具让AI帮你把这个物体合成到另一张场景图里。结果出来之后那个物体却像是蒙了一层薄雾——细节模糊了颜色也不对甚至原本的花纹或者图案都消失了整体看起来像是一个假冒品而不是你提供的那个真实物体。这种令人沮丧的情况其实不是AI工具的设计者粗心大意而是当前几乎所有参考图引导生成系统都存在的一个根本性缺陷。问题出在哪里呢当你把那张高清参考图交给AI系统时这个系统在把图片喂给自己的大脑之前会先把图片强制缩小到一个固定的低分辨率——就好像你给了画师一张A3大小的精细素描他却先把它缩印成一枚邮票然后再用这枚邮票来临摹。邮票上的细节早就丢失殆尽了画出来的东西自然也就和原图相差甚远。这个被研究团队称为参考图引导生成内容Reference-guided Generated Content简称RefGC的技术领域支撑着图像合成、定制化生成、图像编辑等大量我们日常使用的AI图像功能。然而它一直存在着两个叠加的问题第一高清参考图在进入AI系统之前就被强制压缩精细信息提前丢失第二AI在生成过程中还会额外引入它自己的创作痕迹也就是各种生成伪影包括物体身份失真、细节不一致、纹理丢失以及整体质量下降。这两个问题加在一起就造成了最终生成图像与用户期望之间那道难以弥合的鸿沟。中央大学和Adobe Research的研究团队决定从根本上解决这个问题。他们提出了一个全新的任务框架将其命名为参考图引导生成内容的超分辨率精炼Reference-guided Generated Content Super-Resolution-Refinement缩写为RefGC-SR?。这个任务的核心思路是既然AI生成的图片又低分辨率又有伪影那为什么不在AI完成生成之后再用用户最初提供的那张高清参考图来进行后期修复呢就像一位工艺品修复师手里拿着原件的高清照片对着一件被粗糙仿制的复制品进行逐一比对、精心修复最终让复制品既恢复高分辨率又在细节上忠实还原原件的精髓。二、这个问题究竟有多普遍四种失真症状逐一拆解为了让读者更直观地理解这个问题的严重性研究团队总结了AI参考图引导生成过程中最常见的四种失真症状。第一种叫做身份失真。以一组传统手工制作的俄罗斯套娃为例用户提供了一张套娃的高清图片上面有精致的绘画细节和特定的面部表情。但AI生成的结果中套娃的面部特征完全变了样变成了一个完全不同风格的卡通脸原本那种民族风情的细腻画工荡然无存。这就好像你让画师画你家的小狗结果画出来的却是一只完全不同的狗——品种都错了。第二种叫做细节不一致。以一罐果酱为例瓶身上印有特定的营养成分表和品牌标识。AI生成的结果中这些文字和标识变得模糊不清甚至出现了乱码和变形完全看不出原始信息。这就像你让AI帮你复印一份合同结果复印出来的版本里很多字都印错了。第三种叫做纹理丢失。以一只蓝紫色的陶瓷兔子摆件为例表面应该有细腻的陶瓷光泽和微妙的色调变化。但AI生成的版本表面变得平滑而单调那种独特的材质感完全消失了看起来像是用塑料做的。第四种叫做整体质量下降。即便物体的基本形状大致正确整张图片也会显得模糊、生硬缺乏真实照片应有的那种质感和生命力就像一张经过多次翻拍的照片画质越来越差。在这项研究之前学术界和工业界有没有其他方法来解决这些问题呢研究团队对相关技术做了一次全面的梳理发现现有方法各自只能解决问题的一个片段没有一种方法能够同时处理所有难题。普通的图像超分辨率技术ISR可以把低清图片变高清但它是按照相机拍摄失真的规律设计的完全不懂得怎么处理AI生成产生的那种特殊失真。参考图引导超分辨率技术RefSR虽然会利用参考图但同样只针对自然图像的失真对AI生成内容的特有问题束手无策。生成内容超分辨率技术GCSR专门针对AI生成图片但它不使用任何参考图因此无法恢复那些本该来自参考图的特定细节。而现有的参考图引导生成内容精炼技术RefGCR虽然最接近目标能用参考图来修正AI生成的伪影但它只在固定分辨率下工作无法同时提升图片清晰度。研究团队制作了一张比较表格展示了所有相关技术类型在四个关键维度上的得分情况是否处理AI生成内容、是否使用高清参考图、是否提升分辨率、是否精炼伪影。结果显示只有他们提出的RefGC-SR?在全部四个维度上都打了勾。这个发现说明他们填补的确实是一个真实存在却长期被忽视的技术空白。三、训练数据从哪来一套精妙的配对图片制造流水线任何AI模型的训练都需要大量的配对数据——也就是输入是什么、期望输出是什么这样的样本对。RefGC-SR?任务需要的是一种三元组一张含有伪影的低分辨率AI生成图称为LRGI、一张高清参考图称为HRRI、以及一张对应的高分辨率真实目标图称为HRGT。这三张图必须描述同一个物体实例但可以来自不同角度、不同背景。问题在于这样的三元组数据根本不存在于现有数据集中。普通超分辨率数据集里的降质是人工模拟的模糊和噪声不包含真实的AI生成伪影而现有的AI生成内容数据集又缺乏配套的高清真实目标图。更麻烦的是如果直接用现有的AI图像合成模型来生成LRGI这些模型会擅自改变物体的姿势和角度导致LRGI和HRGT之间的物体姿态不一致——这对于训练来说是个大问题因为模型会误以为自己还需要学习改变姿态而不是专注于修复细节和提升分辨率。研究团队因此设计了一套两阶段的数据构建流水线来从零开始制造这些三元组数据。第一阶段专注于收集真实世界的HRRI-HRGT配对。团队从三个高分辨率真实图像和视频数据集中提取素材分别是ORIDa提供物体在不同背景下的真实合成图片对、uCO3D提供同一物体从多个角度拍摄的视频、以及UltraVideo提供在自然运动中拍摄的多样化视频。对于视频数据团队先用一个叫做Qwen3-VL的视觉语言模型来自动筛选出以物体为主体的视频片段然后进行逐帧的细化筛选并用SAM3一种专门用于图像分割的模型为物体生成精确的轮廓遮罩。最后人工审核员对筛选结果进行最终的质量把关和配对确认。这个过程就像在一个巨大的图书馆里先让一个AI助手帮你快速翻阅所有书籍找出可能有用的页面然后再由专业编辑逐一确认。第二阶段负责为每对HRRI-HRGT合成对应的LRGI这是整套流程中最具创意的部分。研究团队专门设计了一个叫做DipRefGC双联画条件参考图引导生成器的生成模型。这个模型的核心挑战是既要让生成的LRGI在物体外观上忠实于HRRI因为LRGI应该是试图参照HRRI生成的结果又要让物体的姿态和角度严格对齐HRGT这样训练时模型才能专注于修复而不是学习改变姿态。DipRefGC采用了一种叫做双联画的构图方式——每个条件输入图片都被设计成左右两格拼在一起的样子就像博物馆里并排展示的两幅相关画作。外观控制部分使用了一种修复式控制网络Inpainting ControlNet左格放置从HRRI中提取的物体右格放置HRGT的背景和一个遮盖了物体区域的空白遮罩强迫模型必须依靠左格的HRRI外观来填充右格的空白从而自然地产生类似真实AI生成的伪影效果。姿态控制部分则使用了另一个边缘线条控制网络Canny ControlNet右格展示HRGT中物体区域的轮廓线条告诉模型生成的物体必须符合这个形状。两个控制网络分工明确、各司其职一个管画什么一个管怎么摆。这套系统构建在FLUX这个强大的图像生成模型基础上并使用LoRA一种轻量级微调技术可以理解为给大模型贴上专用补丁来适配双控制网络。整个DipRefGC在收集到的HRRI-HRGT配对上进行训练最终成功生成了姿态一致、包含真实AI伪影的LRGI样本。最终这套流水线产出了40,000组训练三元组和200组评估三元组构成了研究团队所称的RefGC-SR?数据集——据称这是该任务领域的第一个真实世界三元组数据集。从DipRefGC的设计方案消融实验来看仅仅增加Canny边缘控制就能将物体遮罩的IoU一种衡量形状匹配程度的指标从0.480提升到0.601而专门针对合成和定制化两种场景进行联合微调则进一步提升了参考图的身份保留能力降低了与真实AI生成输出之间的分布差距。四、核心模型如何工作频率感知让粗略轮廓和精细纹理各归其位有了数据之后研究团队接下来构建了RefGC-SR?模型本身。这个模型建立在一个叫做FLUX-Kontext的扩散变换器DiT骨干模型之上骨干模型的所有参数全部冻结不动只在其中插入可训练的新模块。在设计这个模型之前研究团队做了两个重要的侦察实验这两个发现直接决定了模型的架构设计思路。第一个发现来自对FLUX-Kontext本身的频率分析。研究团队测量了这个大模型在每一层神经网络中处理图像时低频信息可以理解为图像的整体轮廓和大色块和高频信息可以理解为图像的细节纹理和边缘各自的能量变化。结果显示低频信息在模型最开始的约5%的层里就已经迅速稳定下来说明整体结构是在早期层里形成的而高频信息则要等到最后约10%的层才突然大量出现说明精细细节是在晚期层里才被添加的。这个发现就像发现了一个画家的作画习惯他总是先用大笔刷确定整体构图然后才拿起细笔刷添加细节从不混淆顺序。第二个发现来自对LRGI、HRRI和HRGT三者之间关系的分析。研究团队把这三种图像在模型的理解空间即潜在特征空间里进行了相似度比较当比较所有频率成分时LRGI和HRRI与HRGT的相似度没有明显规律但是当只单独看低频成分时结果非常清晰——LRGI的低频成分与HRGT非常接近而HRRI的低频成分与HRGT差距较大。这说明从整体结构的角度来看AI生成的低质量图片LRGI实际上已经和期望目标HRGT比较接近了真正的问题是高频的细节信息而这些细节应该从HRRI里提取而不是从LRGI里。基于这两个发现研究团队设计了两个核心组件。第一个组件叫做频率自适应LoRA专家混合FreqMoLE。如果把模型的每一层比作一个工作岗位那么FreqMoLE的做法是在每个岗位上同时安排两位专家一位低频专家专门处理整体轮廓和大结构和一位高频专家专门处理精细纹理和细节。这两位专家同时工作但他们的发言权重由一个叫做门控值α的参数来控制而且这个权重是随着层数深度自动变化的在模型的早期层门控值接近1.0几乎全部听低频专家的到了模型的晚期层门控值逐渐降到接近0几乎全部听高频专家的。这种安排完美契合了前面发现的那个先定结构、后加细节的规律让每位专家在最合适的时机发挥最大作用。门控值在训练初期被固定住确保早期层和晚期层的职责分工稳定建立之后再与两位专家一起共同优化。第二个组件叫做频率损失Lf这是用来指导模型学习方向的评分标准。这个评分标准分为两部分。低频部分的评分规则是模型输出的低频成分必须尽量接近HRGT的低频成分确保整体结构与期望目标保持一致评分时只计算物体所在区域的差异通过遮罩来限定范围。高频部分的评分规则则要巧妙得多由于HRRI和HRGT拍摄角度不同无法直接对比像素位置所以改为比较统计特性——模型输出的高频成分其平均值和方差应当尽量接近HRRI的高频成分而不是接近HRGT。这样模型就能从HRRI里借鉴细节的风格和质感而不需要死板地照搬HRRI的每一个像素。这个设计类似于让厨师学习一道菜的味道风格而不是死记每个步骤让他能在不同食材条件下复现同样的风味。在实际训练中最终的总体损失函数由三部分组成来自FLUX-Kontext骨干的标准流匹配损失LFM负责主要的生成质量监督、来自ImageCritic研究的注意力对齐损失Laal负责让模型正确地把注意力集中在HRRI的物体区域而不是背景以及研究团队自己提出的频率损失Lf。这三个评分标准分工协作分别管控生成质量、参考注意力和频率信息的来源分配三个维度。五、实验结果如何数字和眼睛都说了算研究团队在两个测试场景下评估了RefGC-SR?模型的表现一是自家构建的RefGC-SR?评估基准200组三元组来自训练数据集之外的新样本二是更贴近真实使用场景的野外测试用四种真实的AI生成模型——DreamFuse、InsertAnything、FreeCus、PersonalizeAnything——来产生LRGI共200组样本。在量化指标上与对比方法的竞争从以下几个角度展开CLIP-I分数衡量的是图像内容相似度DINO分数衡量的是特征层面的相似度PSNR和SSIM衡量的是像素级别的重建精度LPIPS衡量的是人类感知层面的图像质量数值越低越好。在RefGC-SR?评估基准上RefGC-SR?模型以CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746的成绩全面超越所有对比方法。最接近的竞争者ImageCriticCVPR26在CLIP-I上达到0.8542但在DINO0.7165和LPIPS0.2991上都明显落后。在野外测试中RefGC-SR?同样在所有指标上领先包括合成任务和定制化任务两个子场景均保持了这一优势。除了数字指标研究团队还通过视觉比较展示了差异。从定性结果来看其他方法普遍存在以下问题有些方法如DiT4SR可以提升分辨率但不能修复生成伪影有些方法如ImageCritic可以修复部分伪影但图像会变得过于平滑细节反而更少有些方法如ReFIR在某些细节区域会出现幻觉凭空添加不存在的纹理还有些方法如OmniPaint根本没有有效地利用HRRI信息来修复生成伪影。RefGC-SR?的输出则在保持整体场景结构的同时将HRRI中的细节忠实地转移到生成图上。用户研究的结果更加直观。研究团队邀请了16名参与者对每个测试样本的四种方法输出一种SR方法、一种RefSR方法、一种RefGCR方法和本研究方法从精炼质量、细节恢复质量、整体质量三个维度进行评分。结果显示RefGC-SR?在所有三个维度上都获得了最高分排名第一的概率高达83%、82%、83%而其他方法的最高分概率最多只有8%。反过来RefGC-SR?被评为最差的概率只有3%到4%而ImageCritic被评为最差的概率高达51%到66%——这与量化指标中ImageCritic排名第二的结果形成了鲜明对比。研究团队解释说这是因为ImageCritic倾向于生成过度平滑的输出在像素级指标上表现还不错但人类观察者能明显感受到细节纹理的丧失认为这是质量下降。这个发现本身也很有意义量化指标不一定能完整反映人类感知层面的图像质量特别是在需要恢复精细细节的任务中。六、消融实验拆开来看每个零件都不可或缺研究团队还进行了系统性的拆件测试消融实验逐一评估FreqMoLE和Lf各自的贡献。当两个组件都去掉时只保留基础模型CLIP-I为0.8437DINO为0.6870LPIPS为0.3538。单独加入Lf时DINO跳升至0.7386提升7.5%LPIPS降至0.2835改善19.9%说明频率损失对物体身份的忠实度和感知质量有显著贡献。从视觉上看没有Lf时模型会把HRRI的内容直接注入到输出里破坏HRGT的整体结构加入Lf后模型学会了既保留HRGT的结构又从HRRI里借鉴高频细节。单独加入FreqMoLE时PSNR提升6.0%CLIP-I提升2.8%说明层次化的低频/高频专家分工确实有助于提升重建精度。从视觉上看没有FreqMoLE时一个透明玻璃杯在输出中变成了不透明的加入FreqMoLE后模型正确地恢复了透明感与HRRI和HRGT保持一致。当两个组件都加入时所有指标均达到最优CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746证明两者扮演着互补而非重叠的角色。七、泛化能力对商业AI大模型同样有效研究团队额外测试了一个很有说服力的场景如果LRGI是由主流商业AI模型生成的RefGC-SR?是否仍然有效他们选取了三款当前广泛使用的商业模型Gemini 2.5 Flash Image、GPT-Image 1.5以及开源模型Qwen-Image-Edit用它们生成LRGI然后交给RefGC-SR?和其他对比方法处理。从视觉比较来看其他方法在面对商业模型输出时仍然存在各自的固有局限有的方法无法识别并修复商业模型产生的特有伪影有的方法在高频细节上产生幻觉有的方法根本没有利用HRRI的信息。相比之下RefGC-SR?在三个商业模型的输出上都展现出稳定的修复和超分辨率能力能够从HRRI中准确地提取细节信息并融入到修复后的图像中。这说明尽管RefGC-SR?是在自己构建的合成数据上训练的它学到的能力具有相当强的泛化性能够迁移到它从未见过的商业AI系统的输出上。八、这项研究的局限性和未来方向研究团队在论文中坦诚地指出了当前工作的主要局限。首先训练数据集是用DipRefGC合成的并非直接从真实RefGC管线中采集的样本这意味着数据中的伪影分布可能与真实世界的所有RefGC系统不完全吻合。其次数据集目前只涵盖12个物体类别以物体为中心的场景为主对于人物、复杂背景或非常规场景的覆盖还不够广泛。第三RefGC-SR?模型目前绑定在FLUX-Kontext这个特定的骨干模型上当HRRI和LRGI之间的视角差异或几何变形非常大时模型可能难以正确处理。研究团队提出了未来可以改进的几个方向直接从多种真实RefGC管线中采集LRGI样本来扩展数据集的覆盖范围、纳入更多物体类别和场景类型、将方法扩展到其他DiT骨干模型以及引入具有几何感知能力的参考图匹配机制来应对大视角差的挑战。归根结底这项研究从一个看似细小的工程问题出发——AI生成图像的质量和清晰度不如人意——但它触及的是整个参考图引导生成技术生态的一个系统性缺陷。研究团队没有试图修改现有的生成模型而是提出了一个后处理的新任务框架用用户本来就拥有的高清参考图作为修复的线索同时完成超分辨率和伪影精炼两件事。这个思路上的转换——从改进生成变为善用现有资源来修复生成结果——不仅在技术上取得了有据可查的进展也为实际应用开辟了一条务实的路径用户不需要等待更好的生成模型只需在生成之后多走一步就能显著提升最终图像的质量和对参考图的忠实度。对于那些在电商、设计、个人创作等领域大量使用AI生成图像的用户来说这一步的价值是相当具体和可感知的。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.15158查阅完整论文。QAQ1RefGC-SR?技术解决的核心问题是什么ARefGC-SR?解决的是AI参考图引导生成比如把你的参考产品图合成到场景里时产生的两个叠加问题一是高清参考图在进入AI之前就被强制压缩导致细节丢失二是AI生成过程本身产生的伪影比如物体变形、纹理消失等。这套方法在AI生成完成后用用户本来就提供的那张高清参考图来同时修复伪影和提升分辨率。Q2DipRefGC是做什么用的为什么需要专门设计它ADipRefGC是一个专门用来合成训练数据的生成模型。训练RefGC-SR?模型需要大量低质量AI生成图、高清参考图、高质量目标图三件套但这样的数据根本不存在。直接用现成AI生成模型来造数据的问题是它会改变物体姿态导致训练时模型误学了纠正姿态而不是修复细节所以研究团队专门设计DipRefGC来生成姿态严格一致、同时包含真实AI伪影的低质量图片。Q3FreqMoLE和普通LoRA微调有什么不同A普通LoRA只在每一层插入一套可训练参数。FreqMoLE在每一层插入两套参数一套专门处理图像的整体结构信息低频专家一套专门处理精细纹理信息高频专家。两套参数的发言权重随模型层数自动调整早期层让低频专家主导晚期层让高频专家主导这样就和FLUX-Kontext模型本身先定结构再加细节的内在规律完美匹配。

文章详情

中山大学与Adobe联手突破AI生成图片“失真“难题

相关新闻

最新新闻

日新闻

周新闻

月新闻