揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD-阿里云开发者社区

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

2024-04-14 33

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型（LMMs）在处理高分辨率图像时的局限，提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略，有效提升了处理任意比例和高分辨率图像的能力。实验显示，LLaVA-UHD在9个基准测试中超越现有模型，且在TextVQA任务上准确率提升6.4%，同时训练时间更短。然而，模型训练成本高、泛化能力待优化是未来需解决的问题。

在人工智能领域，大型多模态模型（LMMs）的视觉编码策略一直是提升其视觉理解能力的关键。然而，现有的LMMs在处理图像时通常存在固定大小和分辨率的限制，这在处理现实世界中多样化比例和高分辨率图像时显得力不从心。近期，清华大学与新加坡国立大学的研究团队发现了GPT-4V等模型在视觉编码上的问题，并提出了一种全新的模型LLaVA-UHD，旨在有效解决这些问题。

GPT-4V作为目前公认的强大LMMs之一，尽管在多个方面表现出色，但在一些基础能力上却存在缺陷，例如在图像中正确计数物体的数量。这种看似简单的任务，对于GPT-4V来说却是一个挑战。研究团队通过对GPT-4V进行一系列实验，发现这些缺陷可能与其视觉编码策略有关。特别是在处理高分辨率图像时，模型可能会出现系统性的错误。

为了克服这些挑战，研究团队提出了LLaVA-UHD模型，该模型包含三个关键组件：图像模块化策略、图像压缩模块和空间模式组织。图像模块化策略将原始分辨率图像分割成较小的可变大小切片，以便进行高效且可扩展的编码；图像压缩模块进一步压缩视觉编码器输出的图像标记；空间模式组织则用于安排切片标记，以便LMMs处理。

LLaVA-UHD模型的提出，标志着在处理任意比例和高分辨率图像方面迈出了重要一步。实验结果表明，LLaVA-UHD在9个基准测试中的表现超越了使用2-3个数量级更多数据训练的现有LMMs。特别值得注意的是，基于LLaVA-1.5 336×336的模型，通过仅使用94%的推理计算，就能支持672×1088分辨率的图像，并在TextVQA任务上实现了6.4%的准确率提升。

此外，LLaVA-UHD模型在学术环境中的高效训练也值得称赞。在8个A100 GPU上，模型的训练时间仅为23小时，相比LLaVA-1.5的26小时有了显著缩短。这一成果不仅为LMMs的发展提供了新的视角，也为相关领域的研究者和开发者提供了新的工具和可能性。

然而，尽管LLaVA-UHD在多个方面取得了显著的成就，但在实际应用过程中仍然存在一些挑战和局限性。例如，模型的训练成本和数据集的生成过程相对复杂，需要大量的计算资源和精心设计的算法。此外，模型的泛化能力和对特定任务的适应性也需要进一步的研究和优化。

论文链接：https://arxiv.org/pdf/2403.11703.pdf