R语言参数检验 :需要多少样本?如何选择样本数量

简介: R语言参数检验 :需要多少样本?如何选择样本数量

参数检验受制于数据属性的假设。例如,t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。


将正态分布拟合到采样均值

为了研究满足t检验要求所需的样本数量,我们迭代各种样本量。对于每个样本大小,我们从几个分布中抽取样本。然后,计算样本的平均值,并将正态分布拟合到平均值的分布。在每次迭代中,我们记录描述正态分布与采样均值拟合程度的对数似然。当对数似然变为正时,我们将考虑采样均值接近正态分布。


拟合的概率

调查结果,我们可以看到一些分布似乎比其他分布更快地接近正态分布:


print(result)
##   Sample_Size      Beta     Normal        Chi    Poisson   Student
## 1           5  694.9139 -299.81161 -496.33474 -702.94076 -1971.203
## 2          10  823.0384 -126.68806 -297.08253 -515.18702 -3806.447
## 3          15  909.4417  -30.63266 -199.77525 -455.64737 -2119.944
## 4          20 1045.1414   46.45709 -136.21868 -375.75690 -2263.025
## 5          50 1235.7655  278.66189   84.44694 -117.56140 -3427.721
## 6         100 1397.7265  443.81523  281.68706   47.87537 -2178.871
## 7        1000 1996.2198 1019.70692  845.26837  619.25871 -3636.674
## 8        5000 2398.4267 1402.41433 1260.47873 1018.24454 -3231.983

根据正对数似然,β分布产生的正态分布均值已经为5的样本大小。正态分布,卡方分布和泊松分布在样本大小分别为20,50和100时产生正态分布均值。最后,学生分布的方式永远不会正常,因为具有一个自由度的分布具有无限的峰度(非常重的尾部),使得中心极限定理不成立。


验证对数似然标准

作为结果的验证,让我们绘制样本大小为5的直方图和平均分布变为正常的样本大小:


plot.means(norm.means)

这些结果表明对数似然准则是正态性的充分代理。但请注意,从目视检查来看,平均值的初始贝塔分布似乎不比正态分布更正常。所以这个结果可能是用一粒盐。看看学生的t分布,我们可以看出为什么它的手段不是正态分布的:

round(quantile(means$Student), 2)
##      0%     25%     50%     75%    100%
## -495.61   -0.95    0.00    0.98 3422.66

对于一些样本,平均分布在分布的两个尾部具有极端异常值。


结论

这些实验的结果表明,对于小于20的样本,绝对应该避免学生t检验。当样本量至少为100时,大多数分布似乎都满足了测试的假设。

总之,特别建议检查样本大小低于100的测量分布。由于中心极限定理不适用于具有无穷方差的分布,因此验证大样本大小的测量分布也是合理的。排除这种分配的可能性。正如我们在这里看到的,即使在5000的样本大小下,根据具有一个自由度的t分布分布的测量也不满足测试的假设。

相关文章
|
6天前
|
算法 vr&ar Python
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
10 1
|
6天前
|
机器学习/深度学习 数据可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
39 18
|
6天前
|
前端开发
数据分享|R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR
数据分享|R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR
37 4
|
12天前
|
机器学习/深度学习 算法
R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据
R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据
22 0
|
12天前
|
算法
R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
12 1
|
12天前
|
Python 数据可视化 索引
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
24 0
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
|
12天前
|
数据可视化 Python
PYTHON 贝叶斯概率推断序列数据概率和先验、似然和后验图可视化
PYTHON 贝叶斯概率推断序列数据概率和先验、似然和后验图可视化
21 0
|
12天前
|
算法 测试技术 vr&ar
R语言用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模
R语言用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模
26 0
|
13天前
|
机器学习/深度学习 数据可视化 算法
R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用
R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用
14 0
|
13天前
|
算法 数据挖掘 索引
R语言最优聚类数目k改进kmean聚类算法
R语言最优聚类数目k改进kmean聚类算法
15 0

热门文章

最新文章

http://www.vxiaotou.com