社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。

日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。

image.png

image.png

具体而言,本次共发布了两个多模态模型,分别为 LLaVA-Llama-3-8B 和 LLaVA-Llama-3-8B-v1.1,它们在架构上完全一样,但训练数据有些许不同。

image.png

快速上手

LLaVA-Llama-3-8B 模型权重已经开源到魔搭社区

模型下载

from modelscope import snapshot_download
# 下载 llava-llama-3-8b-v1_1,其中包含 LLM、Projector 和ViT-LoRA 权重
snapshot_download('xtuner/llava-llama-3-8b-v1_1', cache_dir='./llava-llama-3-8b-v1_1')
# 下载 clip-vit-large-patch14-336
snapshot_download('AI-ModelScope/clip-vit-large-patch14-336', cache_dir='./clip-vit-large-patch14-336')

安装环境

conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env
pip install 'git+https://github.com/InternLM/xtuner.git#egg=xtuner[deepspeed]'

图文对话

xtuner chat ./llava-llama-3-8b-v1_1 \
  --visual-encoder ./clip-vit-large-patch14-336 \
  --llava ./llava-llama-3-8b-v1_1 \
  --prompt-template llama3_chat \
  --image $IMAGE_PATH

使用魔搭社区免费算力运行图文对话推理,

对话示例:

image.png

英文问答

image.png

中文问答

image.png

显存占用:

image.png

MMBench 评测

  1. 下载 MMBench 评测数据集
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_DEV_EN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_TEST_EN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_DEV_CN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_TEST_CN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/CCBench.tsv

  1. 执行评测
xtuner mmbench ./llava-llama-3-8b-v1_1 \
  --visual-encoder ./clip-vit-large-patch14-336 \
  --llava ./llava-llama-3-8b-v1_1 \
  --prompt-template llama3_chat \
  --data-path $DATA_PATH \
  --work-dir $RESULT_PATH
  • $DATA_PATH:指第一步所下载的 MMBench 评测集,例如 ./MMBench_DEV_EN.tsv。
  • $RESULT_PATH:指评测结果所保存的路径。

使用魔搭社区免费算力执行评测,评测结果如下:

image.png

评测后,如果是开发集(Dev),则评测结果会直接打印在 log 中;如果是测试集(Test),则需要将$RESULT_PATH 中的  mmbench_result.xlsx 提交至 MMBench 官方评测机获得评测结果(https://mmbench.opencompass.org.cn/home)。

显存占用:

image.png

训练

LLaVA-Llama-3-8B 在 1 台 8 卡 A100 上进行训练,分为预训练和指令微调两阶段,详细的数据集准备和训练配置可参考 XTuner 官方文档。(https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llava/llama3_8b_instruct_clip_vit_large_p14_336

同时,XTuner 也支持单卡训练 LLaVA-Llama-3-8B(青春版),仅需单卡 20GB 即可完成多模态训练全流程。

  1. 预训练
xtuner train llava_llama3_8b_instruct_quant_clip_vit_large_p14_336_e1_gpu1_pretrain --deepspeed deepspeed_zero2 --seed 1024

算力需求:单A100, pretrain 12GB 2.5

image.png

  1. 指令微调
xtuner train llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_e1_gpu1_finetune --deepspeed deepspeed_zero2 --seed 1024

算力需求:单A100,finetune 20GB 5

image.png

点击直达模型链接

https://modelscope.cn/models/xtuner/llava-llama-3-8b/

相关文章
|
1月前
|
人工智能 边缘计算 测试技术
MLPerf推理基准测试引入Llama 2 新结果公布
【4月更文挑战第5天】MLCommons发布了最新MLPerf推理基准测试结果,涉及数据中心和边缘计算,引入了大型语言模型Llama 2进行性能评估。Llama 2在OPEN ORCA数据集上的表现提升测试复杂性,提供了更全面的性能数据。MLPerf测试涵盖图像分类、对象检测等边缘计算任务,为开发者和研究人员提供参考。测试结果存在硬件和软件配置影响的局限性,但仍是衡量AI系统性能的重要标准。
30 9
MLPerf推理基准测试引入Llama 2 新结果公布
|
1月前
|
自然语言处理 数据可视化 物联网
Qwen1.5-MoE开源,魔搭社区推理训练最佳实践教程来啦
通义千问团队推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。
|
4月前
魔塔社区的模型支持使用DJL 进行推理吗?
想使用DJL 加载魔塔社区的模型并进行推理
|
5月前
|
机器学习/深度学习 物联网 开发者
秒级生图,SDXL-turbo、LCM-SDXL魔搭社区最佳实践
最近一个月,快速生图成为文生图领域的热点,其中比较典型的两种方式的代表模型分别为SDXL-turbo 和 LCM-SDXL。
|
8月前
|
异构计算
单卡可推理CodeFuse-CodeLlama-34B 4bits量化版本魔搭开源!
继2023-09-11 CodeFuse-CodeLlama-34B发布,HumanEval pass@1指标达到74.4% (贪婪解码), 为当前开源SOTA。最近,CodeFuse-CodeLlama-34B 4bits量化版本发布,CodeFuse-CodeLlama-34B-4bits是CodeFuse-CodeLlama-34B模型的4bits量化版本,后者是通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调而得到的代码大模型,模型输入长度为4K。
|
5月前
|
机器学习/深度学习 异构计算 Python
Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)
对于深度学习初学者来说,JupyterNoteBook的脚本运行形式显然更加友好,依托Python语言的跨平台特性,JupyterNoteBook既可以在本地线下环境运行,也可以在线上服务器上运行。GoogleColab作为免费GPU算力平台的执牛耳者,更是让JupyterNoteBook的脚本运行形式如虎添翼。 本次我们利用Bert-vits2的最终版Bert-vits2-v2.3和JupyterNoteBook的脚本来复刻生化危机6的人气角色艾达王(ada wong)。
Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)
|
5天前
|
数据可视化 物联网 关系型数据库
幻方开源第二代MoE模型 DeepSeek-V2,魔搭社区推理、微调最佳实践教程
5月6日,幻方继1月份推出首个国产MoE模型,历时4个月,带来第二代MoE模型DeepSeek-V2,并开源了技术报告和模型权重,魔搭社区可下载体验。
|
14天前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
15天前
|
自然语言处理 Swift
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。
http://www.vxiaotou.com