机器学习数学基础九:回归分析

简介: 高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况

一,回归分析概述


1af8bcbb6d30467194ea379ec32d03f1.png

69fb0ba33ee945cb9d001bc0670fa4ba.png


残差==误差项


相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法


回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法


在对回归分析进行分类时,主要有两种分类方式:

●根据变量的数目,可以分类一元回归、多元回归

●根据自变量与因变量的表现形式,分为线性与非线性


所以,回归分析包括四个方向:一 元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析。


二,一元线性回归分析


●因变量(dependent variable): 被预测或被解释的变量,用y表示

●自变量(independent variable):预测或解释因变量的一一个或多个变量,用x表示

●对于具有线性关系的两个变量,可以用一个方程来表示它们之间的线性关系

●描述因变量y如何依赖于自变量x和误差项8的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:


b239716191ac462c9d32cdcedca5bc7a.png


回归方程:


6808326d5c6a4f95ae593e35be5bb7e2.png


三,误差


1d923c82deae4d2f9392de7845e47c30.png


高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况


b966c36e46454dfebb3b4391bc684032.png


四,最小二乘法的推导和求解


848d807f74954df09209dbef2d8e25b3.png


最小二乘法推导:


f4ac7858a09a48eab3ea9858ff5f6c44.png

65602bd18c2a4adb884103d8a509ca5c.png


660fcbe08738436584fe44e77d81315b.png

f115462ad28849d1b2aea247a2cd5cc2.png

ed0a4ae9f6014f2d9e7d10df8a81e303.png


利用回归直线进行估计与预测:


点估计:利用估计的回归方程,对于x的某一个特定的值,求出y的一个估计值就是点估计

区间估计:利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间就是区间估计


估计标准差:


为了度量回归方程的可靠性,通常计算估计标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。


fd4b960444cc43c48968ef17c5290b8d.png


●公式中根号内的分母是n-2,而不是n,因而自由度为n-2。

●估计标准误差越大,则数据点围绕回归直线的分散程度就越大,回归方程的代表性越小。

●估计标准误差越小,则数据点围绕回归直线的分散程度越小,回归方程的代表愈大,其可靠性越高。


自由度就是一个系统在不违反任何限制条件下,可以自由变化的维度。


6900449f9e6d4baf890cb50f10b2d69b.png


影响区间宽度的因素:


●置信水平(1 -a),区间宽度随置信水平的增大而增大

●数据的离散程度Se,区间宽度随离程度的增大而增大样本容量,区间宽度随样本容量的增大而减小

●X0与X均值之间的差异,随着差异程度的增大而增大


五,回归直线的拟合优度


回归直线与各观测点的接近程度称为回归直线对数据的拟合优度


5ccabf464a104eeb8e8d9a6762fce518.png


总平方和可以分解为回归平方和、残差平方和两部分: SST= SSR+SSE

●总平方和(SST),反映因变量的n个观察值与其均值的总离差

●回归平方和SSR反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分

●残差平方和SSE反映了除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分


判定系数:


回归平方和占总平方和的比例,用R^2表示,其值在0到1之间。

●R^2== 0: 说明y的变化与x无关,x完全无助于解释y的变差

●R^2== 1:说明残差平方和为0,拟合是完全的,y的变化只与x有关


e2683d5d437a4794842acb0352b90ac6.png


六,显著性检验:


显著性检验的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。当建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得到的,它是否真实的反映了变量x和y之间的关系,则需要通过检验后才能证实。


根据样本数据拟合回归方程时,实际上就已经假定变量x与y之间存在着线性关系,并假定误差项是一个服从正态分布的随机变量,且具有相同的方差。但这些假设是否成立需要检验


1,显著性检验包括两方面:


1)线性关系检验


线性关系检验是检验自变量x和因变量y之间的线性关系是否显著,或者说,它们之间能否用一个线性模型来表示。


将均方回归(MSR)同均方残差(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。


●均方回归:回归平方和SSR除以相应的自由度(自变量的个数K)

●均方残差:残差平方和SSE除以相应的自由度(n-k-1)


H0: β1=0 所有回归系数与零无显著差异,y与全体x的线性关系不显著


968f6fd8a0f34c93b416ae00ec5af859.png


2)回归系数检验


回归系数显著性检验的目的是通过检验回归系数β的值与0是否有显著性差异,来判断Y与X之间是否有显著的线性关系.若B=0,则总体回归方程中不含X项(即Y不随X变动而变动),因此,变量Y与X之间并不存在线性关系;若β≠0,说明变量Y与X之间存在显著的线性关系。


5aab983255f3481c89707b440dca0f0f.png


753746898308457eb842f24bb0b9e284.png


2,线性关系检验与回归系数检验的区别:


线性关系的检验是检验自变量与因变量是否可以用线性来表达,而回归系数的检验是对样本数据计算的回归系数检验总体中回归系数是否为0


●在一元线性回归中,自变量只有一个,线性关系检验与回归系数检验是等价的

●多元回归分析中,这两种检验的意义是不同的。线性关系检验只能用来检验总体回归关系的显著性,而回归系数检验可以对各个回归系数分别进行检验


七,多元线性回归


经常会遇到某一现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况,这时需用多元线性回归分析。


多元线性回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测和控制的方法


fa52c28a95f14c019c36b7429318fb4e.png


1f2027718bf14c6fb16dd2289162251a.png


八,曲线回归分析


直线关系是两变量间最简单的一种关系,曲线回归分析的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。


曲线回归分析最困难和首要的工作是确定自变量与因变量间的曲线关系的类型,曲线回归分析的基本过程:


1)先将x或y进行变量转换

2)对新变量进行直线回归分析、建立直线回归方程并进行显著性检验和区间估计

3)将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间.


由于曲线回归模型种类繁多,所以没有通用的回归方程可直接使用。但是对于某些特殊的回归模型,可以通过变量代换、取对数等方法将其线性化,然后使用标准方程求解参数,再将参数带回原方程就是所求。


例子:


9a7cca1fa4ad40fd93400db84e7db565.png


9c6bfa332de74034ae7c227216a512c3.png

a878cd02ac2549008bd4694e8158fc17.png


九,多重共线性


回归模型中两个或两个以上的自变量彼此相关的现象



1,多重共线性带来的问题有:


1)回归系数估计值的不稳定性增强

2)回归系数假设检验的结果不显著等


2,多重共线性检验的主要方法:


1)容忍度

2)方差膨胀因子(VIF)


3,容忍度


1602c93ce5e44dbfb3bb5e6734ac1e5c.png


●Ri是解释变量xi与方程中其他解释变量间的复相关系数;

●容忍度在0~1之间,越接近于0,表示多重共线性越强,越接近于1,表示多重共线性越弱。


4,方差膨胀因子


方差膨胀因子是容忍度的倒数


87e869ed90f641cc800d2895253b87e3.png


●VIFi越大,特别是大于等于10,说明解释变量xi与方程中其他解释变量之间有严重的多重共线性;

●VIFi越接近1,表明解释变量xi和其他解释变量之间的多重共线性越弱。

目录
相关文章
|
1天前
|
机器学习/深度学习 数据可视化 计算机视觉
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
|
1天前
|
机器学习/深度学习 搜索推荐 算法
基于机器学习的用户行为分析与个性化推荐系统
传统的用户行为分析和推荐系统常常受限于规则的刻板和模型的简单,无法准确捕捉用户的个性化需求。本文基于机器学习技术,探讨了一种更加灵活、精准的用户行为分析与个性化推荐系统设计方法,通过深度学习模型结合大数据分析,实现了对用户行为的更细致把握和更个性化的推荐服务。
|
1天前
|
机器学习/深度学习 算法 数据可视化
JAMA | 机器学习中的可解释性:SHAP分析图像复刻与解读
JAMA | 机器学习中的可解释性:SHAP分析图像复刻与解读
317 1
|
1天前
|
机器学习/深度学习 算法 数据可视化
Machine Learning机器学习之高维数据降维(主成分分析PCA、线性判别分析、自编码器超级无敌详细讲解)
Machine Learning机器学习之高维数据降维(主成分分析PCA、线性判别分析、自编码器超级无敌详细讲解)
|
1天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
|
1天前
|
机器学习/深度学习 Python
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-4
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
|
1天前
|
数据可视化
R语言机器学习方法分析二手车价格影响因素
R语言机器学习方法分析二手车价格影响因素
|
1天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】金融数据分析中的机器学习应用
【4月更文挑战第30天】本文探讨了机器学习在金融数据分析中的应用,如股价预测、信用评分、欺诈检测、算法交易和风险管理,并以Python为例展示了如何进行股价预测。通过使用机器学习模型,金融机构能更准确地评估风险、识别欺诈行为并优化交易策略。Python结合scikit-learn库简化了数据分析过程,助力金融从业者提高决策效率。随着技术发展,机器学习在金融领域的影响力将持续增强。
|
1天前
|
机器学习/深度学习 Python
【Python 机器学习专栏】混淆矩阵与 ROC 曲线分析
【4月更文挑战第30天】本文介绍了机器学习中评估模型性能的两种工具——混淆矩阵和ROC曲线。混淆矩阵显示了模型在不同类别上的预测情况,包括真正例、假正例、真反例和假反例,帮助评估模型错误类型和数量。ROC曲线则通过假正率和真正率展示了模型的二分类性能,曲线越接近左上角,性能越好。文章还提供了Python中计算混淆矩阵和ROC曲线的代码示例,强调它们在模型选择、参数调整和理解模型行为中的应用价值。
|
1天前
|
机器学习/深度学习 存储 数据采集
【Python 机器学习专栏】PCA(主成分分析)在数据降维中的应用
【4月更文挑战第30天】本文探讨了主成分分析(PCA)在高维数据降维中的应用。PCA通过线性变换找到最大化方差的主成分,从而降低数据维度,简化存储和计算,同时去除噪声。文章介绍了PCA的基本原理、步骤,强调了PCA在数据降维、可视化和特征提取上的优势,并提供了Python实现示例。PCA广泛应用在图像压缩、机器学习和数据分析等领域,但降维后可能损失解释性,需注意选择合适主成分数量及数据预处理。

热门文章

最新文章

http://www.vxiaotou.com