数据分析模型-关联模型

简介: 尿布与啤酒背后的原理,如何让客户加满购物篮?

什么是商品关联模型?

在介绍商品关联模型之前,先给你介绍一个非常经典的案例。


美国零售超市巨头沃尔玛,曾经针对自己的超市客户进行了行为分析,发现男性客户购买尿不湿时,订单上经常还会出现“啤酒”这个商品,后来经过调查发现,原来很多父亲都是在为宝宝买尿不湿的时候,才临时产生了啤酒的购买意愿。因此为了增加两种商品的销量,沃尔玛将啤酒货架放置在了尿不湿商品区的旁边,这样的商品组合竟然意外地达到了提高双重销量的效果。


那么,两个看似毫无关联的商品为什么会相互影响对方的销量呢?


因为在这个场景中,影响商品销量的因素不再是商品本身,而是人 / 用户,这也是前面介绍的帕累托模型、波士顿模型所无法解决的问题。


因此商品关联分析其实就是研究商品关联性的一种模型,通过研究用户的购买情况,来反映某个商品对于用户的黏性和追随程度,也就是研究商品之间的“共性”。比如尿不湿和啤酒的共性,就都是“父亲的刚需商品”,对于不同共性的商品研究,可以针对不同用户制定不同的分类策略。


再举一些生活中常见的例子你可能会更加理解,例如超市中泡面商品区的旁边一定有火腿肠、淘宝搜索洗面奶时下面的商品推荐中一定会有防晒霜、餐厅中大多会推出“饮料+食物”的套餐,等等,这些商品都属于强关联关系,因此生活中大多会进行捆绑销售。


总而言之,商品关联模型研究的是商品与商品之间的关联性强弱。关联性越强,两个商品的互相影响力就会越大,当一个商品出现数据波动时,另一个商品的数据波动也会越大,反之亦然。

商品关联模型的指标

商品关联分析究竟难不难做呢?其实对于很多人来说,做出浅显易懂的关联分析并不难,例如购物率分析等,但真正想要做出具有实际价值的购物篮分析,就没有那么容易了。因为寻找出顾客购买商品的规律是我们对商品或者产品分析的目的,如何用算法找到商品之间的规律,就需要用到指标。


下面是商品关联模型的三种常见的衡量指标。

1.支持度

表明 C 既包含在 A 内也包含在 B 内的比例,也就是客户既购买了 A 商品的同时,也购买了 B 商品的比例,计算公式是由某一商品组合的购买次数与总购买次数的比例,算法为:


D=E[(A&B)/F]


其中 D 代表支持度,E 代表概率函数,A&B 代表购买了 A 且购买了 B 的次数,F 代表购买总次数。


用更加直观的图形说明一下,如下图所示:

image.png

支持度越低,说明两个商品之间的关联性越差,越不可能产生联系;而支持度越高,说明两个商品同时出现的频率也很高,越容易产生联系。


比如,某超市中今天有 10 笔订单,其中商品牛奶出现的次数是 8 次,面包出现的次数同样也是 8 次,牛奶与面包同时被购买的次数是 6 次。

image.png

那么按照公式可以计算出,面包 + 牛奶的商品支持度为:6/10=0.6。


达到 60% 的支持度说明牛奶和面包同时出现的概率很高,属于高关联性商品组合。


2.置信度

置信度表示包含 A 的同时也包含在 B 中的 C,也就是 C 的比例占 A 的比例的比值,其公式为:


D=E[(A&B/A)]


其中 D 代表置信度,E 表示条件概率,A&B 代表购买了 A 且购买了 B 的次数,A 代表购买 A 的次数。


也就是说,其表示的是“购买 A 会影响之后再购买 B”的条件概率,用图表示就是交集在 A 中的比例,如下图所示。

image.png

置信度的意义是说明某个商品对另一个商品的影响程度。如果置信度越高,说明二者的关联关系越强烈;置信度越低,说明二者之间的关系并不紧密。


比如还是上面的例子,某超市今天有 10 笔订单,其中商品牛奶出现的次数是 8 次,面包出现的次数同样也是 8 次,牛奶与面包同时被购买的次数是 6 次。那么按照公式可以计算出,面包在牛奶中的商品置信度为:6/8=0.75。


因为牛奶与面包订单的总数都是一样的,所以牛奶在面包中的置信度同样为:6/8=0.75。

3.提升度

提升度表示同时购买 A 和 B 的比例与单独购买 A 或 B 的比例进行比较,看顾客是否更愿意买组合后的商品,而不是单独购买,其公式为:


S=D(A&B)/P(A)×P(B)


其中 S 代表提升度,D(A&B)代表 A 商品和 B 商品同时被购买的支持度,P(A)代表商品 A 被单独购买的概率,P(B)代表商品 B 被单独购买的概率。


提升度大于 1 表示该商品组合的方式价值更高,小于 1 则相反。


比如还是上面的例子,牛奶单独出现的次数是 2 次,面包单独出现的次数同样也是 2 次,它们的商品支持度均为 0.2;而牛奶与面包同时被购买的次数是 6 次,那么按照公式可以计算出,面包 + 牛奶的商品组合提升度为:0.6/(0.2×0.2)=15。


因为提升度大于 1,所以说明牛奶 + 面包的商品组合是非常有效的,比单独购买牛奶或者单独购买面包要合理得多。

目录
相关文章
|
1天前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(上)
大模型与数据分析:探索Text-to-SQL(上)
122 0
|
1天前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(中)
大模型与数据分析:探索Text-to-SQL(中)
92 0
|
1天前
|
SQL 存储 数据挖掘
大模型与数据分析:探索Text-to-SQL(下)
大模型与数据分析:探索Text-to-SQL(下)
68 3
|
1天前
|
机器学习/深度学习 存储 人工智能
TableAgent数据分析智能体——数据分析师的大模型
TableAgent数据分析智能体——数据分析师的大模型
|
1天前
|
供应链 搜索推荐 数据挖掘
数据分析方法与模型
数据分析方法与模型
|
6月前
|
数据挖掘
87 网站点击流数据分析案例(统计分析-Visit分析【点击流模型】)
87 网站点击流数据分析案例(统计分析-Visit分析【点击流模型】)
39 0
87 网站点击流数据分析案例(统计分析-Visit分析【点击流模型】)
|
1天前
|
资源调度 自然语言处理 数据可视化
【数据分析与可视化】Matplotlib中十大绘图模型的讲解及实现(图文解释 附源码)
【数据分析与可视化】Matplotlib中十大绘图模型的讲解及实现(图文解释 附源码)
73 1
|
1天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】CNN(卷积神经网络)模型以及R语言实现回归数据分析
【视频】CNN(卷积神经网络)模型以及R语言实现回归数据分析
|
1天前
|
算法 数据挖掘 数据建模
用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析
用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析
|
1天前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言实现CNN(卷积神经网络)模型进行回归数据分析
R语言实现CNN(卷积神经网络)模型进行回归数据分析
http://www.vxiaotou.com