备案控制台

开发者社区人工智能文章正文

CVPR 2024：全新生成式编辑框架GenN2N，统一NeRF转换任务

2024-04-29 24

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第29天】CVPR 2024 提出GenN2N框架，统一处理NeRF转换任务，将NeRF编辑转化为图像到图像转换，适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化，保证三维一致性。虽依赖高质量预训练转换器且计算成本高，但展示了出色性能和通用性，有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]

近年来，神经辐射场（NeRF）技术在计算机图形学和计算机视觉领域取得了巨大的成功。NeRF技术能够从一组二维图像中恢复出高质量的三维场景表示，为三维场景的编辑和转换提供了新的可能性。然而，现有的NeRF转换方法通常针对特定的任务进行设计，缺乏通用性和灵活性。为了解决这个问题，CVPR 2024的一篇论文提出了一种全新的生成式编辑框架GenN2N，可以统一处理各种NeRF转换任务。

GenN2N框架的核心思想是将NeRF转换任务转化为图像到图像的转换问题，然后通过一个可插拔的图像到图像转换器来完成编辑操作。具体来说，GenN2N首先将NeRF表示转换为二维图像，然后使用一个预训练的图像到图像转换器对图像进行编辑，最后将编辑后的图像转换回NeRF表示。这种设计使得GenN2N框架可以灵活地应用于各种NeRF转换任务，如文本驱动的NeRF编辑、着色、超分辨率、图像修复等。

为了确保编辑后的NeRF表示在三维空间中的一致性，GenN2N框架引入了一个生成模型来建模潜在的三维编辑操作。该生成模型是一个变分自编码器（VAE）和生成对抗网络（GAN）的结合体，能够同时编码图像并解码NeRF表示。通过将潜在空间与高斯分布对齐，并使用对抗损失对NeRF的渲染结果进行监督，GenN2N框架可以生成各种可能的编辑后的NeRF表示。

此外，为了进一步提高编辑结果的三维一致性，GenN2N框架还引入了一种对比学习方案来正则化潜在代码。通过在不同的二维视角下对同一NeRF表示进行编码，并鼓励潜在代码在不同的视角下保持一致，GenN2N框架可以更好地捕捉到三维编辑操作的本质，从而提高编辑结果的质量。

实验结果表明，GenN2N框架在各种NeRF转换任务上都取得了出色的性能。与任务特定的方法相比，GenN2N框架在保持性能的同时，还具有更高的灵活性和可扩展性。这使得GenN2N框架成为一个通用的NeRF转换工具，可以广泛应用于计算机图形学和计算机视觉领域的各种应用中。

然而，GenN2N框架也存在一些局限性。首先，由于将NeRF转换任务转化为图像到图像的转换问题，GenN2N框架的性能在一定程度上依赖于预训练的图像到图像转换器的质量。如果预训练的转换器在特定任务上表现不佳，可能会影响到GenN2N框架的编辑结果。其次，GenN2N框架的计算成本相对较高，可能不适合实时应用。

论文地址：https://arxiv.org/abs/2404.02788

文章标签：

计算机视觉

图形学

机器学习/深度学习

编解码

楠竹11

目录

相关文章

阿里云大数据Al技术

|

1天前

|

人工智能文字识别计算机视觉

【AAAI 2024】M2Doc：文档版面分析的可插拔多模态融合方法

M2Doc是一种创新的多模态融合方法，设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块，前者通过门控机制融合视觉和文本特征，后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器，实验证明它能显著提升DocLayNet和M6Doc数据集上的性能，特别是与DINO结合时，在多个数据集上达到SOTA结果。此外，研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。

阿里云大数据Al技术

89638 5 6

-开发达人-

|

9月前

|

自然语言处理测试技术 vr&ar

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

-开发达人-

211 0 0

sunrr

|

8月前

|

机器学习/深度学习人工智能算法

AI Earth工具箱中的路网中心线提取算法

AI Earth工具箱中的路网中心线提取算法

sunrr

198 1 3

Trouble..

|

9月前

|

存储自然语言处理测试技术

【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全

补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同

Trouble..

206 0 0

小Lee

|

5月前

|

机器学习/深度学习人工智能算法

AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢？

AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢？

小Lee

304 1 1

Trouble..

|

9月前

|

机器学习/深度学习自然语言处理搜索推荐

【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型

以往的研究大多致力于从单个句子中抽取事件，而文档级别的事件抽取仍未得到充分的研究。在本文中，我们专注于从整个文档中抽取事件论元

Trouble..

109 0 0

-开发达人-

|

12月前

|

Web App开发自然语言处理图形学

自然语言融入NeRF，给点文字就生成3D图的LERF来了

自然语言融入NeRF，给点文字就生成3D图的LERF来了

-开发达人-

112 0 0

-开发达人-

|

12月前

|

机器学习/深度学习图计算图形学

NeurIPS 2022 | 文本图片编辑新范式，单个模型实现多文本引导图像编辑

NeurIPS 2022 | 文本图片编辑新范式，单个模型实现多文本引导图像编辑

-开发达人-

305 0 0

-开发达人-

|

机器学习/深度学习算法计算机视觉

CVPR 2022 | 实时渲染、可直接编辑，中科大提出高保真人头参数化模型HeadNeRF

CVPR 2022 | 实时渲染、可直接编辑，中科大提出高保真人头参数化模型HeadNeRF

-开发达人-

180 0 0

-开发达人-

|

机器学习/深度学习自然语言处理 PyTorch

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

-开发达人-

176 0 0

热门文章

最新文章

CVE-2017-9805:Struts2 REST插件远程执行命令漏洞(S2-052) 分析报告

MySQL数据库重命名的方法

流言终结者- Flutter和RN谁才是更好的跨端开发方案？

阿里云播放器SDK的正确打开方式 | 功能、架构与应用（一）

Zabbix icmping外网检测(学习笔记十二)

UIKit 框架之UIImageView

【iOS开发】自动识别剪贴板内容

IOS设计模式第三篇之外观设计模式

轻松制作Windows Vista/Windows 7系统WIM镜像

运行第一个scala程序

平衡二叉树的插入和删除（从现在开始摆脱旋转）

二叉树---前，中，后序遍历做题技巧（前，中，后，层次，线索二叉树）

软考之业务处理系统的特点

构建高效自动化运维系统：基于容器技术的持续集成与持续部署（CI/CD）实践

第五十八练堆排序实现

Vue3.0监听器watch与watchEffect

实时数仓 Hologres产品使用合集之可以直接接入接口吗

数据结构-----树的易错点

第五十七练归并排序实现

相关课程

更多

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

【算法实战】8. 集成方法-Adaboost

模型融合方法概述

创空间应用训练个性化模型

神经网络概览及算法详解

【算法实战】7. 集成方法-随机森林

相关电子书

更多

通用多模态AI构建

深度学习论文实现：空间变换网络-第一部分

机器学习中，使用Scikit-Leam简单处理文本数据

相关实验场景

更多

函数计算部署AI艺术字应用，生成新春文字头像

使用PAI-DSW x EasyPhoto快速完成AIGC人物写真生成

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

基于函数计算一键搭建手写体OCR识别平台

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

【图生文】一键部署图像描述模型

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考