机器学习数学基础九：回归分析

2023-02-15 135

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况

一，回归分析概述

残差==误差项

相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法

回归分析是寻找存在相关关系的变量间的数学表达式，并进行统计推断的一种统计方法

在对回归分析进行分类时，主要有两种分类方式:

●根据变量的数目，可以分类一元回归、多元回归

●根据自变量与因变量的表现形式，分为线性与非线性

所以，回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析。

二，一元线性回归分析

●因变量(dependent variable): 被预测或被解释的变量，用y表示

●自变量(independent variable):预测或解释因变量的一一个或多个变量，用x表示

●对于具有线性关系的两个变量，可以用一个方程来表示它们之间的线性关系

●描述因变量y如何依赖于自变量x和误差项8的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:

回归方程：

三，误差

高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况

四，最小二乘法的推导和求解

最小二乘法推导：

利用回归直线进行估计与预测：

点估计:利用估计的回归方程，对于x的某一个特定的值，求出y的一个估计值就是点估计

区间估计:利用估计的回归方程，对于x的一个特定值，求出y的一个估计值的区间就是区间估计

估计标准差：

为了度量回归方程的可靠性，通常计算估计标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。

●公式中根号内的分母是n-2,而不是n，因而自由度为n-2。

●估计标准误差越大，则数据点围绕回归直线的分散程度就越大，回归方程的代表性越小。

●估计标准误差越小，则数据点围绕回归直线的分散程度越小，回归方程的代表愈大，其可靠性越高。

自由度就是一个系统在不违反任何限制条件下，可以自由变化的维度。

影响区间宽度的因素:

●置信水平(1 -a)，区间宽度随置信水平的增大而增大

●数据的离散程度Se，区间宽度随离程度的增大而增大样本容量，区间宽度随样本容量的增大而减小

●X0与X均值之间的差异，随着差异程度的增大而增大

五，回归直线的拟合优度

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度

总平方和可以分解为回归平方和、残差平方和两部分: SST= SSR+SSE

●总平方和(SST)，反映因变量的n个观察值与其均值的总离差

●回归平方和SSR反映了y的总变差中，由于x与y之间的线性关系引起的y的变化部分

●残差平方和SSE反映了除了x对y的线性影响之外的其他因素对y变差的作用，是不能由回归直线来解释的y的变差部分

判定系数：

回归平方和占总平方和的比例，用R^2表示，其值在0到1之间。

●R^2== 0: 说明y的变化与x无关，x完全无助于解释y的变差

●R^2== 1:说明残差平方和为0，拟合是完全的，y的变化只与x有关

六，显著性检验：

显著性检验的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。当建立了估计方程后，还不能马上进行估计或预测，因为该估计方程是根据样本数据得到的，它是否真实的反映了变量x和y之间的关系，则需要通过检验后才能证实。

根据样本数据拟合回归方程时，实际上就已经假定变量x与y之间存在着线性关系，并假定误差项是一个服从正态分布的随机变量，且具有相同的方差。但这些假设是否成立需要检验

1，显著性检验包括两方面:

1）线性关系检验

线性关系检验是检验自变量x和因变量y之间的线性关系是否显著，或者说，它们之间能否用一个线性模型来表示。

将均方回归(MSR)同均方残差(MSE)加以比较，应用F检验来分析二者之间的差别是否显著。

●均方回归:回归平方和SSR除以相应的自由度(自变量的个数K)

●均方残差:残差平方和SSE除以相应的自由度(n-k-1)

H0: β1=0 所有回归系数与零无显著差异，y与全体x的线性关系不显著

2）回归系数检验

回归系数显著性检验的目的是通过检验回归系数β的值与0是否有显著性差异，来判断Y与X之间是否有显著的线性关系.若B=0,则总体回归方程中不含X项(即Y不随X变动而变动),因此,变量Y与X之间并不存在线性关系;若β≠0,说明变量Y与X之间存在显著的线性关系。

2，线性关系检验与回归系数检验的区别:

线性关系的检验是检验自变量与因变量是否可以用线性来表达，而回归系数的检验是对样本数据计算的回归系数检验总体中回归系数是否为0

●在一元线性回归中，自变量只有一个，线性关系检验与回归系数检验是等价的

●多元回归分析中，这两种检验的意义是不同的。线性关系检验只能用来检验总体回归关系的显著性，而回归系数检验可以对各个回归系数分别进行检验

七，多元线性回归

经常会遇到某一现象的发展和变化取决于几个影响因素的情况，也就是一个因变量和几个自变量有依存关系的情况，这时需用多元线性回归分析。

多元线性回归分析预测法，是指通过对两上或两个以上的自变量与一个因变量的相关分析，建立预测模型进行预测和控制的方法

八，曲线回归分析

直线关系是两变量间最简单的一种关系，曲线回归分析的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程，以揭示x与y间的曲线联系的形式。

曲线回归分析最困难和首要的工作是确定自变量与因变量间的曲线关系的类型，曲线回归分析的基本过程:

1）先将x或y进行变量转换

2）对新变量进行直线回归分析、建立直线回归方程并进行显著性检验和区间估计

3）将新变量还原为原变量，由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间.

由于曲线回归模型种类繁多，所以没有通用的回归方程可直接使用。但是对于某些特殊的回归模型，可以通过变量代换、取对数等方法将其线性化，然后使用标准方程求解参数，再将参数带回原方程就是所求。

例子：

九，多重共线性

回归模型中两个或两个以上的自变量彼此相关的现象

1，多重共线性带来的问题有:

1）回归系数估计值的不稳定性增强

2）回归系数假设检验的结果不显著等

2，多重共线性检验的主要方法:

1）容忍度

2）方差膨胀因子(VIF)

3，容忍度

●Ri是解释变量xi与方程中其他解释变量间的复相关系数;

●容忍度在0~1之间，越接近于0，表示多重共线性越强，越接近于1，表示多重共线性越弱。

4，方差膨胀因子

方差膨胀因子是容忍度的倒数

●VIFi越大，特别是大于等于10，说明解释变量xi与方程中其他解释变量之间有严重的多重共线性;

●VIFi越接近1，表明解释变量xi和其他解释变量之间的多重共线性越弱。