数据分享|R语言交互可视化分析Zillow房屋市场：arima、VAR时间序列、XGBoost、主成分分析、LASSO报告

2024-04-29 19

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分享|R语言交互可视化分析Zillow房屋市场：arima、VAR时间序列、XGBoost、主成分分析、LASSO报告

全文链接：http://tecdat.cn/?p=32427

分析师：Xueyan Liu

在当前海量数据和资源的情况下，面对客户需求，如何找准需求标的和问题核心，并围绕该目标问题挖掘数据、确定市场重要关联因素、分层分类筛选可能关联因素，是当前数据分析运用的关键（点击文末“阅读原文”获取完整数据）。

任务/目标

此项目根据全美房地产相关多源数据（查看文末了解数据免费获取方式），旨在用数据创建一个报告，全方面多维度展示美国房屋市场现状。以房屋售价为核心，梳理主要相关指标，并挖掘其他可能相关性指标，通过对单一或多个指标，精准选择合理算法建模，对房屋市场未来发展作出预测，用以更好的展现市场的全貌。

数据准备：

前期数据来源：通过搜过官方或者新闻媒体的行业报告中的数据来源，初始数据包括：月度房地产相关数据

后期数据来源：根据探索性分析后的结果，有针对性的在开源数据库进行关键词搜索，包括

探索性数据分析（EDA）:

通过对数据进行清洗，将数据可视化；从统计分布，地域分布，时间分布等多维度进行分析、寻找数据之间的关系，并由此分析出更多可能相关因素，以进一步深入挖掘。

为了更清晰的表现数据，采用R中flexdashboard制作可互动性报告，并尽可能采用多种不同的图表，以最大效用可视化数据。例如：创建条形图，对比房屋挂牌价和实际售价的分布；或者创建地图，以示不同地区房屋售价或者租金分布的差异。

创建预测模型：

使用预测模型，以更好的了解行业未来的发展趋势：

SARIMA 时间序列模型

基于arima时间序列模型之上，考虑了季节性因素。把过去的值（AR）、过去的预测误差（MA）、过去值之间的差异（I）和季节长度（S）作为预测参数。通过对PACF和ACF的分析，找到最优参数，来进行预测。

VAR 时间序列模型

VAR也称为向量自回归模型，是一种在自回归模型的基础上扩展模型。VAR模型即将内生滞后值，也将同期的外生滞后项视为回归量，可在单个模型中同时预测多个时间序列相关变量。

XGBoost 模型

是一种常见的决策树算模型，他通过不对的已有的树修正再创建新书，直到最优结果。当用于时间序列预测时，需要把时间序列数据转化为监督数据：把需要预测目标数据为因变量,把时间点拆分为年份和月，作为哑变量。

其他可能性因素相关性验证：

除去房屋市场自身产业指标对房价的影响，再挖掘其他可能性影响因素后，需要验证这些指标是否相关。

以上展现所有的结果，包括：数据可视化，算法应用等都是研究房屋市场现状的一个手段不是目的。

想要用数据分析全方面的了解一个行业，不能仅限于行业里的数字研究，还需要发散性思考，结合市场调查或者行业领域专家的意见，对分析角度进行增补。这样才能更好的将数据分析运用到实际中去。

在此对Xueyan Liu对本文所作的贡献表示诚挚感谢，她在乔治城大学完成了数据科学专业的硕士学位。擅长数据整理，可视化数据和模型，统计学习，机器学习, 时间序列。