【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(一)

简介: 【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例

如果您熟悉线性模型,意识到它们的局限,那么您应该学习线性混合模型mixed-model。本视频中,我们讨论了线性混合模型并在R软件中进行应用。

视频:线性混合效应模型(LMM,Linear Mixed Models)和R语言实现

image.png

什么是混合效应建模,为什么要使用?

统计分析中许多问题的传统方法是拟合线性模型,通常使用最小二乘估计。与所有统计方法一样,最小二乘估计需要做出某些数学假设:数据符合正态分布的并且彼此独立。

线性统计模型的一个常见示例是多元线性回归模型:

其中Y被称为因变量,X是自变量,β是要预测的未知参数,而?是随机误差向量。

对于线性回归模型,我们需要假设误差是正态分布的并且彼此独立。自然,严重违反这些假设将导致统计模型几乎没有用处。

然而,在实际情况中,例如当我们对同一个人重复测量因变量智力分数时,智力分数通常是相关的,因此需要一个模型来解释这种相关性。

有时因变量显然不是正态分布的。当我们试图预测二元因变量时,例如成功/失败或生存/死亡,误差只能取两个值,因此不是正态分布的。但可能通过诸如泊松之类的分布很好地建模。逻辑回归和泊松回归分别是在这些情况下使用的模型,并且都是广义线性模型的特例。

这就是为什么要开发混合模型来处理如此混乱的数据,即使我们的样本量较小、结构化数据和许多协变量都可以拟合。

线性混合模型

处理相关数据的传统分析技术是重复测量方差分析和混合模型。相关数据的线性混合模型可以表述为(以回归模型格式):

其中  x变量代表固定效应,而  z变量代表随机效应。

与通常拟合最小二乘的传统线性模型不同,线性混合模型要么拟合最大似然,要么拟合 REML,限制最大似然。REML 是最大似然的一种变体,通常在变异性估计中具有较小的偏差。

混合模型非常适合聚类数据、重复测量和层次模型。虽然基于经典 ANOVA 的方法可以很好地处理某些特殊情况(例如来自没有缺失数据的平衡设计的重复测量 ANOVA),但混合模型对于处理更复杂的情况至关重要,包括缺失数据、按不同时间段测量的个体等。

混合模型还可以帮助我们避免假重复的统计错误,这是统计推断中的误差来源,我们将数据视为独立的,而实际上并非如此。这导致我们夸大了样本的大小,从而夸大了自由度和p-值,这可能导致错误地得出实际不存在的统计显着性结论(即 I 类错误)。假重复通常发生在具有层次结构的观察性研究或具有不同空间和/或时间尺度的设计实验中。

随机效应和固定效应

噪声,在统计文献中被称为“随机效应”。指定这些来源决定了我们测量中的相关结构。

在最简单的线性模型中,我们认为可变性源于测量误差,因此与其他任何因素无关。但通常是不切实际的。

考虑工业过程控制中的一个问题:测试制造的瓶盖直径的变化。我们想研究时间的固定效应:之前与之后。瓶盖是由几台机器生产的。很明显,机器内部和机器之间的直径存在差异。考虑到来自许多机器的瓶盖样本,我们可以通过去除每台机器的平均值来实现测量的标准化。这意味着我们把机器当作固定效应,减去它们,并认为机器内部的变异性是唯一的变异源。减去机器效应后,就去掉了机器间变异性的信息。

另外,在推断时间固定效应时,我们可以将机器间的变异性视为另一个不确定性的来源。在这种情况下,就不会减去机器效应,而是在LMM框架中把它当作一个随机效应。

LMM的相关概念

  • LMM 涉及到很多基础概念,因此它有许多名称:
  • 方差分量:因为如示例所示,方差有不止一个来源。
  • 分层模型或多级分析:因为我们可以将抽样视为分层的——首先对类别进行抽样,然后对其因变量进行抽样。
  • 重复测量:因为我们对每个样本进行多次测量。

广义线性混合模型GLMM

广义线性混合模型相对线性混合模型更加灵活性,即我们可以为因变量假设除正态分布之外的许多族。

广义线性混合模型的一般形式是

 


其中  s是固定效应的数量。r是随机效应的数量。βj是固定效应xij 的参数。bik是随机效应的参数,而zik是随机效应的水平。链接函数  g(μi)=η用来表示,这样  y=g(μi) . 因此,混合模型与广义线性混合模型的结合,形成广义线性混合模型。

GLMM的链接函数

广义线性混合模型与线性混合模型 之间的不同之处在于因变量可以来自除正态分布之外的不同分布。此外,不是直接对因变量建模,而是应用一些链接函数,例如对于二元结果,我们使用Logistic链接函数和Logistic的概率密度函数。这些是

对于计数结果,我们使用对数链接函数和poisson的概率质量函数,或PMF。请注意,我们称之为概率质量函数而不是概率密度函数,因为支持是离散的(即对于正整数)。这些是


通过为因变量选择适当分布族并与线性预测因子相联系,可以更准确地对具有计数或比例的因变量设计进行建模。随机效应不再被忽视,而是被估计出来,并且可以对新的数据进行推断。

R语言对数据进行线性混合效应模型的拟合与可视化

在本文中,我们将用R语言对数据进行线性混合效应模型的拟合,然后可视化你的结果。

线性混合效应模型是在有随机效应时使用的,随机效应发生在对随机抽样的单位进行多次测量时。来自同一自然组的测量结果本身并不是独立的随机样本。因此,这些单位或群体被假定为从一个群体的 "人口 "中随机抽取的。示例情况包括

  • 当你划分并对各部分进行单独实验时(随机组)。
  • 当你的抽样设计是嵌套的,如横断面内的四分仪;林地内的横断面;地区内的林地(横断面、林地和地区都是随机组)。
  • 当你对相关个体进行测量时(家庭是随机组)。
  • 当你重复测量受试者时(受试者是随机组)。

混合效应的线性模型在R命令lme4和lmerTest包中实现。另一个选择是使用nmle包中的lme方法。lme4中用于计算近似自由度的方法比nmle包中的方法更准确一些,特别是在样本量不大的时候。


【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(二)/article/1485866

相关文章
|
1天前
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
1天前
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
|
1天前
【R语言实战】——Logistic回归模型
【R语言实战】——Logistic回归模型
|
1天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
1天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
1天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
1天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
1天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
1天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
1天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)

热门文章

最新文章

http://www.vxiaotou.com