
戚 芸
(班级:数科院08(6)班 学号:08213118)
[摘要]数据挖掘是近些年企业界相当热门的话题,它利用统计与人工智能的算法,从庞大的企业历史资料中,找出隐藏的规律并简历准确的模型,用以预测未来。其中关联规则的挖掘是数据挖掘的一个重要问题。
[关键字]关联规则 支持度 置信度 增益
一、关联规则的概述
关联规则一般用以发现交易数据库中不同商品 (项)之间的联系 ,用这些规则找出顾客的购买行为模式 ,比如购买了某一种商品对购买其他商品的影响 ,这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类等。进而引伸至寻找一个变量间不同选择之间的关系,或寻找不同变量间的关系。以交易数据为例描述关联规则 :
给定一个交易集 ,该交易集包含一系列商品 ,则一条关联规则可以表示为 :
X → Y
二、关联规则的分类
(1)按关联规则中处理变量的类别,可将关联规则分为布尔型和数值型布尔型关联规则中对应变量都是离散变量或类别变量,它显示的是离散型变量间的关系,比如“买啤酒→买婴儿尿布”;数值型关联规则处理则可以与关联或多层关联规则相结合,处理数值型变量,如“月收入5000 元→每月交通费约800 元”。
(2)按关联规则中数据的抽象层次,可以分为单层关联规则和多层关联规则单层关联规则中,所有变量都没有考虑到现实的数据具有多个不同的层次;而多层关联规则中,对数据的多层性已经进行了充分的考虑。比如“买夹克→买慢跑鞋”是一个细节数据上的单层关联规则,而“买外套→慢跑鞋”是一个较高层次和细节层次间的多层关联规则。
(3) 按关联规则中涉及到的数据维数可以分为单维关联规则和关联规则单维关联规则只涉及数据的一个维度(或一个变量) ,如用户购买的物品;而关联规则则要处理数据,涉及多个变量,也就是说,单维关联规则处理单一属性中的关系,而关联规则则处理多个属性间的某些关系。比如“买啤酒→买婴儿尿布”只涉及用户购买的商品,属于单维关联规则,而“喜欢野外活动→购买慢跑鞋”涉及到两个变量的信息,属于二维关联规则。
三、关联规则的作用
关联规则是数据挖掘中作用比较广泛的知识之一,具体而言,关联规则的作用可以表现在以下几个方面:
(1) 交叉销售,基于消费者购买模式,主动进行交叉销售;
(2)邮购目录的设计,将经常会一起购买的东西置于邮购目录较近的位置,促进销售。
(3)商品摆放,基于商店不同的经营理念,如果将会经常一起购买的东西较近摆放,客户会比较方便购买,如果有意放在购物通道的两端,顾客寻找的过程中可以增加
其他物品销售的可能性;
(4)流失客户分析,可以分析是否是某些关键商品的缺失等;
(5) 基于购买模式进行客户区隔。
四、关联规则的判断标准
做关联规则分析之前,首先我们要明白,关联规则是单向的。超市里我们可能发现“买啤酒则买婴儿尿布”的关联性很强,但“买婴儿尿布就买啤酒”的关联性却很弱。关联规则左右都可以是多种物品或特性的组合。任何两个变量间都可能存在着潜在的关联,那么怎样决定哪些关联确实具有代表性,真的很有作用,哪些关联只是假象或者毫无用处呢? 在考察关联规则时,需要同时考虑三条的标准,即支持度( support ,也称广泛度,普遍度。下文以sup ( . ) 表示括号内关联规则的支持度) 、置信度(confidence ,也称预测度。下文以con( . ) 表示)和增益(lift ,下文以lif ( . ) 表示) 。表1 是一个假设的购物篮数据库中的一部分,我们以该数据为例说明关联规则的三个标准。
表1 某体育用品店部分销售数据(1)
| 交易项目 | 成交次数 |
| 夹克球鞋 | 300 |
| 滑雪衫,球鞋 | 100 |
| 夹克,滑雪衫,球鞋 | 100 |
| 球鞋 | 50 |
| 慢跑鞋 | 40 |
| 夹克,慢跑鞋 | 100 |
| 滑雪衫,慢跑鞋 | 200 |
| 衬衣 | 10 |
| 夹克 | 40 |
| 滑雪衫 | 60 |
| 合计 | 10000 |
表2 某体育用品店部分销售数据(2)
| 运动鞋Y1 | 单独购买 | 合计 | ||||
| 球鞋Y11 | 慢跑鞋Y12 | |||||
| 上衣X | 衬衣X1 | 10 | 10 | |||
| 外套X2 | 夹克X21 | 400 | 100 | 40 | 540 | |
| 滑雪衫 X22 | 200 | 200 | 60 | 460 | ||
| 单独购买 | 50 | 40 | ||||
| 合计 | 650 | 340 | 1000 | |||
以上述数据为例,可以发现挖掘出若干条关联规则,比如:“夹克→球鞋(X21 →Y11 ) ”;“外套→慢跑鞋(X2 →Y12 ) ”;“运动鞋→滑雪衫(Y1 →X22 ) ”等等。关联规则的支持度、置信度和增益的含义分别如下。
(1) 支持度sup ( . )表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比。如规则“夹克→球鞋”,其支持度为:
sup (X21 →Y11 ) = P(X21 Y11 ) =4001000= 40 % (2)
相当于联合概率。
关于支持度,有一点要注意,即多层关联规则的支持度并不一定是低层的单层关联规则支持度之和。如上例。规则“外套→球鞋”是多层关联规则,而“夹克→球鞋”、“滑雪衫→球鞋”为相应的单层关联规则,尽管外套包括并且仅包括夹克和滑雪衫,但前者支持度并不等于后两者支持度之和:
sup (X2 →Y11 ) ≠sup (X21 →Y11 ) + sup (X22 →Y11 ) (3)
原因很简单,因为购买外套的人中,除了分别购买夹克和滑雪衫的人外,还有人一次交易中既买夹克,又买滑雪衫。
(2)置信度con( . )是指购物篮分析中有了左边商品,同时又有右边商
品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。如规则“夹克→球鞋,其置信度为:
con(X21 →Y11 ) = P(Y11 | X21 )
=P(X21 Y11 )/P(X21 )=400/540= 74.11 % (4)
(3)增益lif ( . )增益是两种可能性的比较,一种是在已知购买了左边商品情况下购买右边商品的可能性,另一种是任意情况下购买右边商品的可能性。比如规则“夹克→球鞋”的增益就是比较以下两种可能性,一是任意情况下买球鞋的可能性,另一是在已知某交易中有夹克的情况下包括球鞋的可能性。规则“夹克→球鞋”的增益为:
lif (X21 →Y11 ) = P(Y11 | X21 ) - P(Y11 )
= 74. 1 % - 65 % = 9. 1 % (5)
这个标准和数据挖掘中其他模型的选择标准一样,通过与“原有”规则的比较,来测量该规则提高预测准确性的程度。有时也把增益称为改良,因为它可以测量预测改进的程度。
在进行关联规则的挖掘中,通过指定这三个标准的最小值,三个标准的值都大于临界值的关联规则就被列出。而且以上这三个标准缺一不可,孤立地使用这三个标准中的任意一个,都可能导致错误结果。例如该体育商品店的交易如表3 所示:
表3 某体育商品店部分交易记录(3)
| 运动鞋Y1 | 单独购买 | 合计 | ||||
| 球鞋Y11 | 慢跑鞋Y12 | |||||
| 上衣X | 衬衣X1 | 10 | 10 | |||
| 外套X2 | 夹克X21 | 1 | 1 | |||
| 滑雪衫 X22 | 1 | 8 | 999 | |||
| 单独购买 | 90 | |||||
| 合计 | 2 | 988 | 1000 | |||
当某种常见现象出现在关联规则右边时,高置信度也会产生误导。比如以下几条规则的置信度都比较高,但几乎是没有作用的规则:“买方便面则买牛奶”,买牙刷则买牛奶”“, 喜欢野外休闲则会买牛奶”等等。这一类规则的置信度和支持度都会比较高,因为很少有人会不买牛奶。但这一类规则没有任何作用。
这三个规则中,增益是最有可能单独使用而不致产生误导的标准,因为它可以测量关联规则增进预测右边现象的能力。但如果该规则的支持度很低,该规则也可能造成误导。比如如果上述1000 笔交易中,只有两人买球鞋,其中一人与夹克一起购买,另一人与滑雪衫一起购买,于是规则“夹克→球鞋”的增益为99.98 % ,但其支持度只有1/1000 ,因此该规则也是一条误导规则。
除了以上三个对关联规则的数量标准外,一条关联规则真正可取,还需要具备以下两个条件,一是该规则必须是人们常识之外、意料之外的关联,二是该规则必须具有潜在的作用,而目前任何技术与算法都无法判断哪些知识属于常识,也无法判断哪些属于可能具有潜在作用的规则,因此关联规则的挖掘离不开人的作用。
五、总结与展望
关联规则的应用领域目前,关联技术的主要应用领域是商业,它的主要挖掘对象是事务数据库。
利用关联技术从交易数据库发现规则的过程称为购物篮分析。通过对商业数据库中的海量销售记录进行分析,提取出反映顾客购物习惯和偏好的有用规则,可以决定商品的降价、摆放以及设计优惠券等。当然也可以把得到的信息应用到促销和广告中,例如,所有后项为“DietCoke”的规则可能会给商店提供出信息:什么会促使DietCoke大量售出。另外,关联规则也可以服务于cross-sale。服务业的激烈竞争使得公司留住老顾客和吸引新顾客一样重要。通过分析老顾客的购买记录,了解他们的产品消费偏好,给他们提供其它产品的优惠及服务,这样不但能留住他们还可以使他们逐渐熟悉另外的产品,公司从而以尽快的速度获得利润。Cross-sale就是试图让一种产品的固定购买客户购买另一种产品。
但大公司的顾客购买数据库很大,人工分析是很难的,关联规则挖掘技术可以结合专家从大型数据库中发现有用知识,来帮助领域专家做出决策。关联技术不但在商业分析中得到了广泛的应用,在其它领域也得到了应用,包括工程、医疗保健、金融证券分析、电信和保险业的错误校验等。
[参考文献]
[1]DavidHand,PadhraicSmyth。张银奎,廖丽,宋俊等译。数据挖掘原理M。
[2]机械工业出版社。2003。4邵峰晶,于忠清。数据挖掘原理与算法M。
[3]中国水利水电出版社。2003。83陈文伟,黄金才。数据挖掘技术M。
[4]张尧庭、谢邦昌、朱世武《数据采掘入门及应用》中国统计出版社,2001
