无需训练，这个新方法实现了生成图像尺寸、分辨率自由-阿里云开发者社区

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

2024-04-25 32

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第25天】研究人员提出FouriScale方法，解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波，该方法实现不同分辨率下图像的结构和尺度一致性，无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时，能生成任意尺寸的高质量图像，尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限，但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]

在人工智能领域，图像合成技术一直是研究的热点。近年来，扩散模型（Diffusion Models）因其出色的图像生成能力而备受关注，尤其在高分辨率图像合成方面取得了显著进展。然而，这些模型在生成超出训练分辨率的图像时，常常面临着重复模式和结构失真的问题。为了解决这一挑战，来自多个研究机构的联合团队提出了一种新颖的方法——FouriScale，它通过频率域分析的视角，实现了在不同分辨率下生成结构一致性和尺度一致性的图像，且无需对模型进行重新训练。

FouriScale方法的核心在于两个关键技术：膨胀卷积（Dilated Convolution）和低通滤波（Low-pass Filtering）。通过在预训练的扩散模型中替换原有的卷积层，引入膨胀卷积技术，并结合低通操作，该方法能够在不同的分辨率下保持图像的结构完整性和尺度一致性。此外，研究团队还提出了一种填充后裁剪（Padding-then-Crop）策略，使得FouriScale能够灵活处理不同宽高比的文本到图像生成任务。

FouriScale的提出，为高分辨率图像的合成提供了一种训练免费、简单且兼容的解决方案。该方法不仅成功地平衡了生成图像的结构完整性和真实性，还展现出了生成任意尺寸、高分辨率和高质量图像的惊人能力。这一点在实验中得到了充分的验证，FouriScale在多个基准测试中取得了优异的成绩，尤其是在处理高宽比图像时的表现，更是超越了现有的一些方法。

然而，FouriScale方法也存在一些局限性。例如，在生成极高分辨率样本时，如4096×4096像素的图像，仍然会出现一些意外的伪影。此外，由于FouriScale主要针对卷积操作进行优化，这可能限制了它在纯基于变换器的扩散模型中的应用范围。尽管如此，FouriScale的提出无疑为未来超高清图像合成技术的发展提供了宝贵的经验和思路。

论文地址：https://arxiv.org/abs/2403.12963

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

热门文章

最新文章

相关电子书

相关实验场景