Meta无限长文本大模型来了:参数仅7B,已开源

简介: 【4月更文挑战第26天】Meta 研究团队推出7亿参数的MEGALODON,这是一个专为无限长文本序列建模设计的神经网络架构。通过复数指数移动平均(CEMA)和时间步归一化层等技术创新,MEGALODON在效率和准确性上超越Transformer,且在多种基准测试中表现优秀。源代码已开源,为长序列建模提供新工具,但面临资源限制和处理极端长度序列的挑战。[论文链接](https://arxiv.org/pdf/2404.08801.pdf)

在人工智能领域,大型语言模型(LLMs)的发展一直是研究的热点。这些模型在处理长序列数据、理解内部长期动态以及生成连贯输出方面的能力,对于多轮对话、长文档理解、视频生成等实际应用至关重要。然而,现有的Transformer架构由于其二次方的计算复杂性和有限的归纳偏差,使其在长序列建模上存在效率低下的问题。尽管有诸如线性注意力和状态空间模型等次线性解决方案,但它们在预训练效率和下游任务准确性方面仍未能超越Transformer。

在这样的背景下,Meta公司的研究团队提出了MEGALODON,这是一个针对无限长文本序列建模而设计的神经网络架构。MEGALODON继承了MEGA(门控注意力与指数移动平均)架构,并引入了多个技术组件以提升其能力和稳定性,包括复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制以及预归一化配合双跳残差配置。在与LLAMA2的对比中,MEGALODON在7亿参数规模和2万亿训练令牌的条件下,展现了比Transformer更好的效率,并且在多个基准测试中的表现稳健。

MEGALODON的核心创新之一是CEMA,它将MEGA中的多维阻尼指数移动平均扩展到了复数域,这一改进有助于保持核权重中的衰减结构,这对于卷积模型在长序列建模上的成功至关重要。此外,MEGALODON还引入了时间步归一化层,这一层通过计算累积均值和方差,为自回归序列建模任务提供了一种新的归一化方法。这些技术的应用使得MEGALODON在处理长序列数据时,能够实现线性的计算和内存复杂度。

在实验部分,MEGALODON在不同规模的语言建模和特定领域的下游任务上进行了广泛的性能评估。结果表明,MEGALODON在训练困惑度和各种下游基准测试中,均显著优于LLAMA2。特别是在长上下文建模方面,包括在不同上下文长度下的困惑度以及在Scrolls数据集上的长上下文问答任务,MEGALODON证明了其对无限长度序列建模的能力。

此外,MEGALODON在中等规模的基准测试上也展现了其强大的性能,包括在ImageNet-1K数据集上的图像分类任务,以及在PG-19数据集上的自回归语言建模任务。这些实验结果进一步证明了MEGALODON在不同数据模态上的鲁棒性。

值得注意的是,MEGALODON的模型大小为7亿参数,这在当前的LLMs中是一个相对适中的规模。尽管如此,它在多个任务上的表现已经接近或超过了更大的模型,这表明MEGALODON在参数效率上具有显著优势。此外,MEGALODON的代码已经开源,这意味着学术界和工业界的研究人员可以自由地访问、使用和进一步开发这一架构。

当然,任何新技术都不可能完美无缺,MEGALODON同样面临一些挑战和局限性。例如,尽管在长序列建模上表现出色,但在处理极端长度的序列时,其性能可能会受到一定影响。此外,MEGALODON的计算和内存需求随着序列长度的增加而线性增长,这可能在资源有限的环境下成为一个问题。尽管如此,MEGALODON的提出无疑为长序列建模提供了一个有力的工具,并且为未来的研究开辟了新的可能性。

论文地址:https://arxiv.org/pdf/2404.08801.pdf

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
10月前
|
人工智能 编解码 自然语言处理
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
|
1天前
|
机器学习/深度学习 人工智能 自动驾驶
Transformer解码真实场景!Meta推出70M参数SceneScript模型
【5月更文挑战第12天】Meta AI Labs推出了70M参数的SceneScript模型,运用Transformer技术从视频中生成结构化场景描述,以编程语言方式表示,便于3D场景重建和理解。该模型无需依赖3D模型或CAD,能应用于建筑设计、电影游戏制作及机器人领域。尽管面临计算资源需求高、数据标注困难及与传统工具集成的挑战,但其灵活性、可扩展性和可解释性展现出广阔的应用前景。[论文链接](https://arxiv.org/pdf/2403.13064.pdf)
5 1
|
1天前
|
人工智能 API
【AI大模型应用开发】【LangChain系列】实战案例6:利用大模型进行文本总结的方法探索,文本Token超限怎么办?
【AI大模型应用开发】【LangChain系列】实战案例6:利用大模型进行文本总结的方法探索,文本Token超限怎么办?
39 0
|
1天前
|
机器学习/深度学习 算法
大模型开发:你如何优化超参数?
超参数优化是提升机器学习和深度学习模型性能的关键,包括手动调整、网格搜索、随机搜索、贝叶斯优化、基于梯度的优化、进化算法等方法。此外,利用超参数调优工具、迁移学习、元学习和集成方法也是常用策略。实践中,应结合项目需求和资源选择合适的方法,并配合交叉验证和提前停止技术。
41 1
|
6月前
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
175 0
|
1天前
|
编解码 安全 对象存储
智能媒体管理文档转换的上限参数
【2月更文挑战第15天】 智能媒体管理文档转换的上限参数
30 8
|
8月前
|
自然语言处理 数据挖掘
我们要对齐什么——从人类反馈数据收集过程中分析语言模型的对齐任务类型与对齐目标
在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。
298 0
|
10月前
|
人工智能 自然语言处理 文字识别
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
139 0
|
11月前
|
人工智能 otter 测试技术
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
106 0
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
http://www.vxiaotou.com