揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

简介: 【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。

26e6b683317bc5c33dcd6ad47719c858.jpeg
在人工智能领域,大型多模态模型(LMMs)的视觉编码策略一直是提升其视觉理解能力的关键。然而,现有的LMMs在处理图像时通常存在固定大小和分辨率的限制,这在处理现实世界中多样化比例和高分辨率图像时显得力不从心。近期,清华大学与新加坡国立大学的研究团队发现了GPT-4V等模型在视觉编码上的问题,并提出了一种全新的模型LLaVA-UHD,旨在有效解决这些问题。

GPT-4V作为目前公认的强大LMMs之一,尽管在多个方面表现出色,但在一些基础能力上却存在缺陷,例如在图像中正确计数物体的数量。这种看似简单的任务,对于GPT-4V来说却是一个挑战。研究团队通过对GPT-4V进行一系列实验,发现这些缺陷可能与其视觉编码策略有关。特别是在处理高分辨率图像时,模型可能会出现系统性的错误。

为了克服这些挑战,研究团队提出了LLaVA-UHD模型,该模型包含三个关键组件:图像模块化策略、图像压缩模块和空间模式组织。图像模块化策略将原始分辨率图像分割成较小的可变大小切片,以便进行高效且可扩展的编码;图像压缩模块进一步压缩视觉编码器输出的图像标记;空间模式组织则用于安排切片标记,以便LMMs处理。

LLaVA-UHD模型的提出,标志着在处理任意比例和高分辨率图像方面迈出了重要一步。实验结果表明,LLaVA-UHD在9个基准测试中的表现超越了使用2-3个数量级更多数据训练的现有LMMs。特别值得注意的是,基于LLaVA-1.5 336×336的模型,通过仅使用94%的推理计算,就能支持672×1088分辨率的图像,并在TextVQA任务上实现了6.4%的准确率提升。

此外,LLaVA-UHD模型在学术环境中的高效训练也值得称赞。在8个A100 GPU上,模型的训练时间仅为23小时,相比LLaVA-1.5的26小时有了显著缩短。这一成果不仅为LMMs的发展提供了新的视角,也为相关领域的研究者和开发者提供了新的工具和可能性。

然而,尽管LLaVA-UHD在多个方面取得了显著的成就,但在实际应用过程中仍然存在一些挑战和局限性。例如,模型的训练成本和数据集的生成过程相对复杂,需要大量的计算资源和精心设计的算法。此外,模型的泛化能力和对特定任务的适应性也需要进一步的研究和优化。

论文链接:https://arxiv.org/pdf/2403.11703.pdf

目录
相关文章
|
1天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
1天前
|
人工智能 Windows
LabVIEW将视觉生成器AI用作OPC服务器
LabVIEW将视觉生成器AI用作OPC服务器
13 2
|
1天前
|
人工智能 iOS开发 MacOS
[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
我们推出了最新的旗舰模型 GPT-4o,并为免费版 ChatGPT 用户提供更多功能,包括更快的速度、改进的文本、语音和视觉能力,以及新的桌面应用程序和简化的界面。
[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
28 1
|
1天前
|
机器学习/深度学习 人工智能 安全
[译][AI OpenAI] 您好,GPT-4o
GPT-4o 是OpenAI的新旗舰模型,能够处理文本、音频和图像,并生成各种组合的输出。它在语言理解、视觉感知和音频处理方面表现出色。本文介绍了GPT-4o的能力、评估结果、安全性和局限性,以及其可用性和未来计划。
[译][AI OpenAI] 您好,GPT-4o
|
1天前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
17 1
|
1天前
|
人工智能 安全 数据安全/隐私保护
【AI 生成式】生成式人工智能存在哪些伦理问题?
【5月更文挑战第4天】【AI 生成式】生成式人工智能存在哪些伦理问题?
【AI 生成式】生成式人工智能存在哪些伦理问题?
|
1天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在PAI-DSW(平台上的AI数据科学工作站)上尝试修改实例名时,收到"实例不存在"的错误信息如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
1天前
|
存储 人工智能 JSON
【AI大模型应用开发】【RAG优化 / 前沿】0. 综述:盘点当前传统RAG流程中存在的问题及优化方法、研究前沿
【AI大模型应用开发】【RAG优化 / 前沿】0. 综述:盘点当前传统RAG流程中存在的问题及优化方法、研究前沿
66 0
|
1天前
|
人工智能 机器人
【好玩AI】【Prompt】情人节了,用GPT写个【骂醒恋爱脑】的机器人跟自己对话吧
【好玩AI】【Prompt】情人节了,用GPT写个【骂醒恋爱脑】的机器人跟自己对话吧
41 0
http://www.vxiaotou.com