CVPR 2024:全新生成式编辑框架GenN2N,统一NeRF转换任务

简介: 【4月更文挑战第29天】CVPR 2024 提出GenN2N框架,统一处理NeRF转换任务,将NeRF编辑转化为图像到图像转换,适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化,保证三维一致性。虽依赖高质量预训练转换器且计算成本高,但展示了出色性能和通用性,有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]

近年来,神经辐射场(NeRF)技术在计算机图形学和计算机视觉领域取得了巨大的成功。NeRF技术能够从一组二维图像中恢复出高质量的三维场景表示,为三维场景的编辑和转换提供了新的可能性。然而,现有的NeRF转换方法通常针对特定的任务进行设计,缺乏通用性和灵活性。为了解决这个问题,CVPR 2024的一篇论文提出了一种全新的生成式编辑框架GenN2N,可以统一处理各种NeRF转换任务。

GenN2N框架的核心思想是将NeRF转换任务转化为图像到图像的转换问题,然后通过一个可插拔的图像到图像转换器来完成编辑操作。具体来说,GenN2N首先将NeRF表示转换为二维图像,然后使用一个预训练的图像到图像转换器对图像进行编辑,最后将编辑后的图像转换回NeRF表示。这种设计使得GenN2N框架可以灵活地应用于各种NeRF转换任务,如文本驱动的NeRF编辑、着色、超分辨率、图像修复等。

为了确保编辑后的NeRF表示在三维空间中的一致性,GenN2N框架引入了一个生成模型来建模潜在的三维编辑操作。该生成模型是一个变分自编码器(VAE)和生成对抗网络(GAN)的结合体,能够同时编码图像并解码NeRF表示。通过将潜在空间与高斯分布对齐,并使用对抗损失对NeRF的渲染结果进行监督,GenN2N框架可以生成各种可能的编辑后的NeRF表示。

此外,为了进一步提高编辑结果的三维一致性,GenN2N框架还引入了一种对比学习方案来正则化潜在代码。通过在不同的二维视角下对同一NeRF表示进行编码,并鼓励潜在代码在不同的视角下保持一致,GenN2N框架可以更好地捕捉到三维编辑操作的本质,从而提高编辑结果的质量。

实验结果表明,GenN2N框架在各种NeRF转换任务上都取得了出色的性能。与任务特定的方法相比,GenN2N框架在保持性能的同时,还具有更高的灵活性和可扩展性。这使得GenN2N框架成为一个通用的NeRF转换工具,可以广泛应用于计算机图形学和计算机视觉领域的各种应用中。

然而,GenN2N框架也存在一些局限性。首先,由于将NeRF转换任务转化为图像到图像的转换问题,GenN2N框架的性能在一定程度上依赖于预训练的图像到图像转换器的质量。如果预训练的转换器在特定任务上表现不佳,可能会影响到GenN2N框架的编辑结果。其次,GenN2N框架的计算成本相对较高,可能不适合实时应用。

论文地址:https://arxiv.org/abs/2404.02788

目录
相关文章
|
1天前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
9月前
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
211 0
|
8月前
|
机器学习/深度学习 人工智能 算法
AI Earth工具箱中的路网中心线提取算法
AI Earth工具箱中的路网中心线提取算法
198 1
|
9月前
|
存储 自然语言处理 测试技术
【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
206 0
|
5月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
304 1
|
9月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
109 0
|
12月前
|
Web App开发 自然语言处理 图形学
自然语言融入NeRF,给点文字就生成3D图的LERF来了
自然语言融入NeRF,给点文字就生成3D图的LERF来了
112 0
|
12月前
|
机器学习/深度学习 图计算 图形学
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
305 0
|
机器学习/深度学习 算法 计算机视觉
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
180 0
|
机器学习/深度学习 自然语言处理 PyTorch
华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩
华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩
176 0
http://www.vxiaotou.com