加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了-阿里云开发者社区

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

2024-05-10 14

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第9天】字节跳动研究团队推出Hyper-SD框架，实现快速图像生成，仅需1步即可达SOTA水平。该框架采用TSCD技术减少误差，整合ReFL优化加速模型，提高图像质量。在1步推理时，Hyper-SDXL在CLIP和Aes Score上超越SDXL-Lightning。开源LoRA插件促进社区发展，但可能牺牲部分模型通用性，未来仍需关注用户需求多样性。[论文链接](https://arxiv.org/abs/2404.13686)

在人工智能领域，图像生成技术一直是研究的热点。随着深度学习技术的不断进步，生成模型的能力也在不断提升。最近，字节跳动公司的研究团队在这一领域取得了显著的进展，他们提出了一种名为Hyper-SD的新型框架，该框架能够在极少的推理步骤下生成高质量的图像，并且在某些情况下，只需1步即可达到SOTA（State of the Art，即业界最佳水平）的性能。这一研究成果不仅在技术上具有创新性，而且对整个图像生成领域的发展具有重要的推动作用。

Hyper-SD框架的核心创新在于其独特的“轨迹分段一致性蒸馏”（Trajectory Segmented Consistency Distillation，简称TSCD）技术。这项技术通过将整个时间步范围分割成多个小段，并在每个小段内进行一致性蒸馏，从而实现了对原始轨迹的精细保留。这种方法有效地减少了模型拟合过程中的累积误差，提高了生成图像的质量。

此外，Hyper-SD框架还整合了人类反馈学习（Human Feedback Learning，简称ReFL）技术，通过优化加速模型的ODE（常微分方程）轨迹，使其更适合少步骤推理。这一技术的运用，使得在某些情况下，加速模型的性能甚至超过了原始模型。

在实验中，Hyper-SD在1到8步推理的情况下，对于SDXL和SD1.5两种架构均展现出了SOTA性能。特别是在1步推理的情况下，Hyper-SDXL在CLIP Score和Aes Score两个指标上分别超过了SDXL-Lightning 0.68和0.51，这一结果在图像生成领域是相当惊人的。

为了更全面地评估模型性能，研究团队还进行了广泛的用户研究。用户研究的结果表明，Hyper-SD在多种设置和方法中获得了显著更多的用户偏好，尤其是在与同一架构的基线模型相比时，Hyper-SD15在用户偏好上拥有超过三分之二的优势。

字节跳动公司的研究团队不仅在技术上取得了突破，还通过开源相关的LoRA（Low-Rank Adaptation）插件，为整个社区的发展做出了贡献。这些插件支持从1到8步的推理，并且提供了一个专门的单步SDXL模型，以进一步推动生成AI社区的发展。

Hyper-SD框架在图像生成领域的贡献是显而易见的。它不仅提高了生成图像的质量和效率，还通过开源其技术，促进了整个行业的技术共享和进步。然而，任何技术都有其局限性。Hyper-SD在实现快速生成高质量图像的同时，也牺牲了一部分模型的通用性。例如，该框架在处理某些特定类型的图像时，可能需要特定的优化策略来进一步提升性能。

此外，尽管Hyper-SD在用户研究中获得了较高的评价，但图像生成的主观性很强，不同用户对图像质量的评价标准可能存在差异。因此，如何进一步提升模型以满足更广泛的用户需求，仍是未来研究需要关注的问题。

论文链接：https://arxiv.org/abs/2404.13686

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

热门文章

最新文章

相关课程

相关电子书

相关实验场景