【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例（一）

2024-04-18 19

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例

如果您熟悉线性模型，意识到它们的局限，那么您应该学习线性混合模型mixed-model。本视频中，我们讨论了线性混合模型并在R软件中进行应用。

视频：线性混合效应模型(LMM,Linear Mixed Models)和R语言实现

什么是混合效应建模，为什么要使用？

统计分析中许多问题的传统方法是拟合线性模型，通常使用最小二乘估计。与所有统计方法一样，最小二乘估计需要做出某些数学假设：数据符合正态分布的并且彼此独立。

线性统计模型的一个常见示例是多元线性回归模型：

其中Y被称为因变量，X是自变量，β是要预测的未知参数，而?是随机误差向量。

对于线性回归模型，我们需要假设误差是正态分布的并且彼此独立。自然，严重违反这些假设将导致统计模型几乎没有用处。

然而，在实际情况中，例如当我们对同一个人重复测量因变量智力分数时，智力分数通常是相关的，因此需要一个模型来解释这种相关性。

有时因变量显然不是正态分布的。当我们试图预测二元因变量时，例如成功/失败或生存/死亡，误差只能取两个值，因此不是正态分布的。但可能通过诸如泊松之类的分布很好地建模。逻辑回归和泊松回归分别是在这些情况下使用的模型，并且都是广义线性模型的特例。

这就是为什么要开发混合模型来处理如此混乱的数据，即使我们的样本量较小、结构化数据和许多协变量都可以拟合。

线性混合模型

处理相关数据的传统分析技术是重复测量方差分析和混合模型。相关数据的线性混合模型可以表述为（以回归模型格式）：

其中 x变量代表固定效应，而 z变量代表随机效应。

与通常拟合最小二乘的传统线性模型不同，线性混合模型要么拟合最大似然，要么拟合 REML，限制最大似然。REML 是最大似然的一种变体，通常在变异性估计中具有较小的偏差。

混合模型非常适合聚类数据、重复测量和层次模型。虽然基于经典 ANOVA 的方法可以很好地处理某些特殊情况（例如来自没有缺失数据的平衡设计的重复测量 ANOVA），但混合模型对于处理更复杂的情况至关重要，包括缺失数据、按不同时间段测量的个体等。

混合模型还可以帮助我们避免假重复的统计错误，这是统计推断中的误差来源，我们将数据视为独立的，而实际上并非如此。这导致我们夸大了样本的大小，从而夸大了自由度和p-值，这可能导致错误地得出实际不存在的统计显着性结论（即 I 类错误）。假重复通常发生在具有层次结构的观察性研究或具有不同空间和/或时间尺度的设计实验中。

随机效应和固定效应

噪声，在统计文献中被称为“随机效应”。指定这些来源决定了我们测量中的相关结构。

在最简单的线性模型中，我们认为可变性源于测量误差，因此与其他任何因素无关。但通常是不切实际的。

考虑工业过程控制中的一个问题：测试制造的瓶盖直径的变化。我们想研究时间的固定效应：之前与之后。瓶盖是由几台机器生产的。很明显，机器内部和机器之间的直径存在差异。考虑到来自许多机器的瓶盖样本，我们可以通过去除每台机器的平均值来实现测量的标准化。这意味着我们把机器当作固定效应，减去它们，并认为机器内部的变异性是唯一的变异源。减去机器效应后，就去掉了机器间变异性的信息。

另外，在推断时间固定效应时，我们可以将机器间的变异性视为另一个不确定性的来源。在这种情况下，就不会减去机器效应，而是在LMM框架中把它当作一个随机效应。