备案控制台

开发者社区华章出版社文章正文

《R语言数据挖掘：实用项目解析》——2.8　假设检验

2017-07-03 3031

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《R语言数据挖掘：实用项目解析》一书中的第2章，第2.8节，作者［印度］普拉迪帕塔·米什拉（Pradeepta Mishra），译黄芸，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.8　假设检验

零假设意味着什么都没有发生、平均值是恒定的，等等。对立假设则意味着有什么发生了，且平均值与总体有所不同。进行假设检验的步骤如下：

1）提出零假设：提出关于总体的假设。例如，平均市内行车英里数为40。
2）提出对立假设：如果证明零假设是错的，那么其他情况的概率有多大？例如，如果市内行车英里数不是40，那是大于40，还是小于40？如果不等于40，则这是一个非定向对立假设。
3）计算样本检验统计：检验统计可以是t-检验、f-检验、z-检验等。根据数据适用性和先前提出的假设选择恰当的检验统计。
4）确定置信区间：有90%、95%和99%三个置信区间，根据相关的特定业务问题的准确率而定。置信区间的水平由研究人员或分析师来确定。
5）确定显著性水平：如果置信区间是95%，则显著性水平将为5%。由此可见显著性水平的确定将有益于计算检验的p值。
6）结论：如果选择的p值小于显著水平值，则有理由否定零假设；否则，我们将认可零假设。

2.8.1　总体均值检验

根据前面的检验假设步骤，以Cars93为例来检验总体平均值。

已知方差情况下的单尾均值检验

假设某研究人员声明样本采集的所有汽车平均行车里程数超过35。在有93辆汽车的样本中，观察到所有汽车平均行车里程数为29。你应该认可，还是否定该研究人员的声明？

接下来的代码将解释你应该怎样对此下结论：

下面介绍在已知方差情况下对样本数据的总体均值进行单尾和双尾比例检验分析。

单尾和双尾比例检验

利用数据集Cars93，假设40%的美国产汽车的RPM（最大马力时的每分钟转速）超过5000。从样本数据得知，57辆汽车中有17辆的RPM超过5000。从上文你可得到什么解释？

如果对立假设是非定向假设，那么这就是双尾比例检验的例子。之前的计算不会有改变，除了临界值的计算。详细代码如下：

对连续型数据的双样本成对检验：用于双样本成对检验的零假设是指假设一个过程对研究对象没有影响、试验对试验对象没有影响，等等。对立假设声明存在过程的显著统计影响、试验的有效性或在对象上的作用。

虽然在Cars93中没有这样的变量，我们仍然假设在不同汽车品牌的最小价格和最大价格之间有成对关系。

双样本t检验的零假设：平均价格无差异。
对立假设：平均价格有差异。

由于p值小于0.05，因此最大价格和最小价格之差在95%置信区间内有显著差异。

对连续型数据的双样本不成对检验：假设在Cars93数据集中高速路的里程数和市内里程数是有差别的。如果两者有显著差异，可以通过独立的样本t检验来比较各自的平均值。
零假设：高速路的MPG和市内的MPG没有差别。
对立假设：高速路的MPG和市内的MPG有差别。

由双样本t检验可知，当两个样本相互独立时，p值小于0.05，所以我们可以否定假设高速路和市内的平均里程数无差别的零假设，即高速路和市内的平均里程数有显著差异。这可用略微不同的方法展现出来，即零假设手动挡与自动挡汽车各自的市内平均行车里程数不同：

从以上的检验可知，结论自动挡与手动挡汽车的市内平均行车里程数有显著差异，因为p值小于0.05。

在进行t检验之前，检查数据的正态性非常重要。一个变量的正态性可用Shapiro检验函数检测：

由市内每加仑行车里程数的正态分位图和直方图可知，里程数变量没有呈正态分布。因为该变量不是正态分布的，所以需要采取非参数方法比如Wilcoxon符号秩检验或Kolmogorov-Smirnov检验。

2.8.2　双样本方差检验

比较双样本的方差，采用F检验作为统计量：

因为p值小于0.05，我们可以否定手动挡与自动挡汽车在高速路的里程数的方差无差异的零假设。这表明两个样本的方差有95%置信水平的统计显著差异。

这两组样本的方差还可以用Bartlett检验测出：

由以上检验也可以得出这样的结论，即关于方差相同的零假设可在0.05的显著性水平拒绝，可证明这两组样本有显著差异。

单因子方差分析：可使用单因子方差分析。分析的变量是RPM，分组变量是Cylinders（汽缸个数）。

零假设：不同缸数的平均RPM值无差异。

对立假设：至少一种缸数的平均RPM有差异。

代码如下：

由上面的方差分析可知，p值小于0.05，因此否定零假设。这意味着至少有一种缸数的平均RPM存在显著差异。为了识别哪一种缸数是不同的，可在方差分析模型的结果上执行事后检验：

只要调整后的p值小于0.05，RPM的平均差异将显著有别于其他分组。

双因子方差分析及其事后检验：这里研究的因子是origin（是否美国产）和airbags（安全气囊规格）。需要检验的假设是：这两个分类变量对RPM变量是否有影响？

文章标签：

云解析DNS

数据挖掘

关键词：

r语言检验

r语言数据挖掘

r语言假设检验

数据挖掘r语言

数据挖掘语言

华章计算机

目录

相关文章

拓端数据部落

|

1天前

|

数据可视化前端开发数据挖掘

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（上）

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

拓端数据部落

21 0 0

拓端数据部落

|

1天前

|

机器学习/深度学习数据可视化

R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码

R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码

拓端数据部落

16 1 1

拓端数据部落

|

1天前

|

数据可视化

R语言汇率、股价指数与GARCH模型分析：格兰杰因果检验、脉冲响应与预测可视化

R语言汇率、股价指数与GARCH模型分析：格兰杰因果检验、脉冲响应与预测可视化

拓端数据部落

13 0 0

拓端数据部落

|

1天前

|

算法数据挖掘数据库

R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

拓端数据部落

14 0 0

拓端数据部落

|

1天前

|

数据可视化

R语言平稳性ADF检验、ARCH-LM效应检验分析收盘价收益率数据可视化

R语言平稳性ADF检验、ARCH-LM效应检验分析收盘价收益率数据可视化

拓端数据部落

17 0 0

拓端数据部落

|

1天前

|

数据可视化 Python

R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

拓端数据部落

18 0 0

拓端数据部落

|

1天前

|

前端开发数据可视化数据挖掘

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（下）

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

拓端数据部落

24 0 0

拓端数据部落

|

1天前

|

数据可视化数据挖掘

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

拓端数据部落

20 0 0

拓端数据部落

|

1天前

|

数据可视化算法数据挖掘

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（上）

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

拓端数据部落

29 0 0

拓端数据部落

|

1天前

|

数据可视化数据建模

R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐日变化可视化（下）

R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐日变化可视化

拓端数据部落

19 0 0

华章出版社

热门文章

最新文章

R语言计量经济学：工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断

R语言检验独立性：卡方检验(Chi-square test)

R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化

R语言中使用RCPP并行计算指数加权波动率

R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

R语言中的生存分析Survival analysis晚期肺癌患者4例

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（上）

数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（下）

API电商接口大数据分析与数据挖掘（商品详情店铺）

预测未来：Python 数据挖掘案例

数据挖掘实战：基于KMeans算法对超市客户进行聚类分群

【Python数据挖掘】优化电能能源策略：基于非侵入式负荷检测与分解的智能解决方案

Python数据挖掘项目实战——自动售货机销售数据分析

基于非侵入式负荷检测与分解的电力数据挖掘

通过案例理解数据挖掘

数据挖掘之旅：京东商品详情API与销售策略的优化

探索大数据时代的关键技术：数据挖掘、可视化和数据仓库

百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历

相关课程

更多

云计算工程师解析与实战-网络专家篇（体验版）

深入解析Docker容器化技术

大数据之R语言速成与实战

Java面试疑难点解析 - 面试技巧及语言基础

Java面试疑难点解析 - Java Web开发

Java面试疑难点解析 - 系统架构及项目设计

相关电子书

更多

神龙云服务器产品及技术深度解析

弹性创造价值：基于ECS的最佳性价比实践解析

又快又稳：阿里云下一代虚拟交换机解析

相关实验场景

更多

通过云拨测对指定服务器进行Ping/DNS监测

古典密码体制的统计分析——Playfair密码

古典密码体制的统计分析—— Vigenere密码

推荐系统入门之使用ALS算法实现打分预测

自然语言入门：NLP数据读取与数据分析

推荐镜像

更多

DNS

NTP

kali-security

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考