无需训练,这个新方法实现了生成图像尺寸、分辨率自由

简介: 【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]

在人工智能领域,图像合成技术一直是研究的热点。近年来,扩散模型(Diffusion Models)因其出色的图像生成能力而备受关注,尤其在高分辨率图像合成方面取得了显著进展。然而,这些模型在生成超出训练分辨率的图像时,常常面临着重复模式和结构失真的问题。为了解决这一挑战,来自多个研究机构的联合团队提出了一种新颖的方法——FouriScale,它通过频率域分析的视角,实现了在不同分辨率下生成结构一致性和尺度一致性的图像,且无需对模型进行重新训练。

FouriScale方法的核心在于两个关键技术:膨胀卷积(Dilated Convolution)和低通滤波(Low-pass Filtering)。通过在预训练的扩散模型中替换原有的卷积层,引入膨胀卷积技术,并结合低通操作,该方法能够在不同的分辨率下保持图像的结构完整性和尺度一致性。此外,研究团队还提出了一种填充后裁剪(Padding-then-Crop)策略,使得FouriScale能够灵活处理不同宽高比的文本到图像生成任务。

FouriScale的提出,为高分辨率图像的合成提供了一种训练免费、简单且兼容的解决方案。该方法不仅成功地平衡了生成图像的结构完整性和真实性,还展现出了生成任意尺寸、高分辨率和高质量图像的惊人能力。这一点在实验中得到了充分的验证,FouriScale在多个基准测试中取得了优异的成绩,尤其是在处理高宽比图像时的表现,更是超越了现有的一些方法。

然而,FouriScale方法也存在一些局限性。例如,在生成极高分辨率样本时,如4096×4096像素的图像,仍然会出现一些意外的伪影。此外,由于FouriScale主要针对卷积操作进行优化,这可能限制了它在纯基于变换器的扩散模型中的应用范围。尽管如此,FouriScale的提出无疑为未来超高清图像合成技术的发展提供了宝贵的经验和思路。

论文地址:https://arxiv.org/abs/2403.12963

目录
相关文章
4.为模型增加贴图
4.为模型增加贴图
265 0
|
机器学习/深度学习
深度学习数据增强方法-内含(亮度增强,对比度增强,旋转图图像,翻转图像,仿射变化扩充图像,错切变化扩充图像,HSV数据增强)七种方式进行增强-每种扩充一张实现7倍扩)+ 图像缩放代码-批量
深度学习数据增强方法-内含(亮度增强,对比度增强,旋转图图像,翻转图像,仿射变化扩充图像,错切变化扩充图像,HSV数据增强)七种方式进行增强-每种扩充一张实现7倍扩)+ 图像缩放代码-批量
|
1天前
|
编解码 算法 图形学
LabVIEW中调整图像大小
LabVIEW中调整图像大小
|
1天前
|
机器学习/深度学习 编解码 异构计算
ELAN:用于图像超分辨率的高效远程注意力网络
ELAN:用于图像超分辨率的高效远程注意力网络
43 1
|
8月前
|
机器学习/深度学习 传感器 算法
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
|
8月前
|
编解码 人工智能 移动开发
AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。
|
9月前
|
人工智能 自然语言处理 算法
自由编辑人脸打光:基于生成模型的三维重光照系统上线
自由编辑人脸打光:基于生成模型的三维重光照系统上线
211 0
|
11月前
【Unity3D--自由观察模型】模型自动旋转+触屏旋转和缩放
展示3D模型,同时实现模型自动旋转和触屏旋转和缩放
240 0
|
12月前
|
自然语言处理 算法 测试技术
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
|
机器学习/深度学习 算法 测试技术
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节(1)
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
147 0
http://www.vxiaotou.com