重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
啤酒和尿布的故事,我估计大家都听过,这是数据挖掘里面最经典的案例之一。它分析的方法就关联分析。
成都创新互联专业为企业提供桥东网站建设、桥东做网站、桥东网站设计、桥东网站制作等企业网站建设、网页设计与制作、桥东企业网站模板建站服务,10余年桥东做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。
关联分析,顾名思义,就是研究不同商品之前的关系。这里就发现了啤酒和尿布这两个看起来毫不相关的东西直接存在的微妙关系。
最经典的关联分析算法之一就是Apriori算法,也是数据挖掘十大算法之一。在R中就有一个包可以做关联分析——arules和arulesViz,前者用于关联规则的数字化生成而后者是前者的扩展包,它提供了几种对关联分析结果可视化技术,从分析到可视化一站式完成。
在了解学习关联分析之前,我们需要知道以下几个名词。
英文名itemset,它是一个集合,举个例子,一个商场的所有商品的就是一个集合,也是一个项集。
英文名Association Rule。一般记为X->Y,X成为关联规则的先决条件,Y称为关联规则的结果。关联规则有三个核心概念:支持度,置信度,提升度。
英文名Support。它表示的是项集{X,Y}同时含有X, Y的概率。该指标是建立强关联规则的第一个门槛,衡量所考察关联规则在量上的多少。我们可以通过最小阈值的设定,来剔除那些支持度较小的。
英文名 Confidence。它是第二个门槛
,在这里我们也可以设置最小阈值。置信度表示在关联规则的先决条件X发生的条件下,Y发生的概率。如果跟前面的项集的概念联系到一块,置信度的意思就是如果在含有X的项集里面也含有Y的可能性。
confidence(X—>Y)=P(Y|X)=P(X, Y)/P(X)
英文名lift。提升度可以看做是对置信度的一个补充。置信度是在X发生的情况下,Y发生的概率。而提升度是在X发生的情况下,Y发生的概率与没有这个条件下项集中出现Y的可能性之比。
当lift为1时,表示X和Y相互独立,当lift值越大,关联性越强。
选出满足支持度最小的阈值的所有项集。即频繁项集。该阈值一般设为5%—10%。
从频繁项集中找出最小置信度的所有规则。置信度的阈值一般设置的比较高,如70%—90%。当然你要是想获取较多的关联规则,该阈值可以设置的较低。
arules包提供的apriori算法函数原型如下:
apriori(data, parameter = NULL, appearance = NULL, control = NULL)
现在来给大家介绍一下这些参数。
参数 | 作用 |
---|---|
data | 数据 |
parameter | 参数可以是一个列表,可以对支持度,置信度,每个项集所含项数的最大值最小值,以及输出结果等重要参数进行设置 |
appearance | 可以对先决条件X和关联条件Y中具体包含的那些项目进行限制。默认是没有限制的。 |
control | 控制算法的性能,也可以进行排序和报告进程。 |
现在就来分析一下啤酒和尿布的案例,arules包含有一个Groceries的数据集,该数据集是某杂货店一个月的真实交易数据,我今天就有这份数据来看看啤酒和尿布的故事是不是都是大人们编出来骗我们的。
library(arules)
data("Groceries")
由于数据集中酒的种类比较多,有canned beer,bottled beer,wine等,所以我直接把尿布napkins作为后继。
rules<-apriori(Groceries,parameter = list(supp=0.001,conf=0.22), appearance = list(rhs="napkins",default="lhs"))
在不断调整支持度和置信度,最终调到0.001和0.22,结果还是比较理想的,如果再大一点,生成的频繁项集就会比较少,而且更重要的没有包含啤酒的的项集,如果再小一点,生成的项集又太多,但包含啤酒的项集也不是很多。此时支持度为0.001,置信度为0.22,总共有53个频繁项集,但只有一条包含啤酒的频繁项集。当把支持度或置信度再调大一点,就没有包含酒的频繁项。
现在使用arulesViz
包对结果进行可视化
library(arulesViz) plot(rules)
还有其他参数,在用的时候可以再好好研究。
分析完之后我有种被骗的感觉,为什么会这样,53个频繁项集,但只有一条包含啤酒的频繁项集。也许关联最强的不用分析我们都知道,关联最强的也许就是常识,往往那些关联不太强且容易被忽视到的才是最值得我们去发现的。
退一步想想,也许因为该数据量太小,只有一个月的,另外,这是数据来自一个grocery,并不是像沃尔玛那种supermarket,而且这个杂货店也不一定是美国的。所以大家可以把这篇文章看做是一个关联算法的练习。
注:
作者:王亨
公众号:跟着菜鸟一起学R语言
原文链接:http://blog.csdn.net/wzgl__wh/