数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(上)

简介: R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

原文链接:http://tecdat.cn/?p=27578 


回归假设


省略变量偏差


如果_真实_模型包括_X_ 1 和_X_ 2 ,但我们忘记了_X_ 2,那么 - 在某些情况下 - 对_X_的估计将会有偏差。OVB 需要:cor( X 1, X 2)!= 0 和 cor( X 1, y ) != 0


同方差性


为了做出有效的推断,我们假设误差方差是恒定的 - 如果不是,我们冒着做出错误推断的风险(没有偏差,只影响 SE,补救措施:稳健的 SE)


内生性


如果_X_影响_Y_但_Y_也影响_X_,则我们具有内生性,这将导致估计量有偏。


虚拟变量和交互


虚拟变量


可以取两个值的变量,例如学生分数数据(小班、大班)查看文末了解数据获取方式,也称为指示变量或二元变量。

当我们估计这个模型时会发生什么?

值_i_ = β 0 + β 1大_i_ + ε _i_

y__i = β_0 + _β_1_d__i + ε__i

小班的估计是多少?

大班的估计是多少?

点击标题查阅往期内容


R语言用线性回归模型预测空气质量臭氧数据


01

02

03

04


示例:学校数据


小班的期望分数是多少?

? β^0

大班的期望分数是多少?

? β^0 + β^1 ?

小班和大班之间的期望差异是什么?

? β^1

> summary(mol.mll)

虚拟变量与回归


当我们将虚拟变量添加到具有连续解释变量的模型时会发生什么?

y__i = β_0 + _β_1_x__i + ε__i

y__i = β_0 + _β_1_x__i + β_2_d + ε__i

如果大班_d_ = 1,小班_d_ = 0,我们得到大班:

对于小班,我们得到这个:


学校数据


> del <- lm(tetcr ~ Sraio + igscol, data=dt1)
> summary(me2)


一个学生对每个老师的边际效应是多少?

βSTR比

大班有什么影响?

? β ^大班.__学校

STratio 对小班/大班的影响是否相同?

?是的,_β_ _^ STratio_对任何区都是相同的(平行线)


添加虚拟变量可以改变一切


交互项


回归模型


在多元回归模型中, β ^1 描述了__X 1的边际效应,_同时控制_了_X_ 2 的效应。内置假设_X_ 1 对所有观测值具有相同的效应。


交互


放宽这种假设的一种方法是允许效果变化。

我们通过使用交互来实现这一点,我们将解释变量的乘积添加到模型中:

Y__i = β_0 + _β_1_X_1_i + β_2_X_2_i + β_3_X_1_i · X_2_i + ε__i


图 1

图 2

图 3

交互:虚拟变量和回归


  • 为什么假设效应 ( β 1 ) 在所有子组中都是恒定的?

  • 让我们根据 big.school 让 STratio 产生不同的效果:

y__i = β_0 + _β_1_x__i + β_2_d__i + β_3_d__i · x__i + ε__i

如果大班_d_ = 1,小班_d_ = 0,我们得到大班:

对于小班:

> srereg(list(model1,model2, model3))

STratio & 大班


R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析(下):/article/1491747

相关文章
|
1天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
1天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
1天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
1天前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
1天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
1天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
1天前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
1天前
|
数据可视化 定位技术
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
|
1天前
|
机器学习/深度学习 数据可视化 算法
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为1
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
1天前
|
机器学习/深度学习 数据可视化 算法
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享

热门文章

最新文章

http://www.vxiaotou.com