最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

数据挖掘结课论文--- 关联规则-Apriori算法研究及其应用

来源:动视网 责编:小OO 时间:2025-10-02 00:04:33
文档

数据挖掘结课论文--- 关联规则-Apriori算法研究及其应用

关联规则-Apriori算法研究及其应用2017-06摘要:通过介绍关联规则模型和关联规则中提供了求频繁项集的Apriori算法,并运用实例进行解释该算法的基本实现过程。关键字:关联规则Apriori数据挖掘引言数据挖掘是从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识[1]。关联规则是数据挖掘的典型方法,它是描述在数据库中数据项之间同时出现的规律的知识模式。关联规则的分析方法用于隐藏在大型数据集中令人感兴趣的联系,所发现的联系可以用关联规则或频繁项集的形式
推荐度:
导读关联规则-Apriori算法研究及其应用2017-06摘要:通过介绍关联规则模型和关联规则中提供了求频繁项集的Apriori算法,并运用实例进行解释该算法的基本实现过程。关键字:关联规则Apriori数据挖掘引言数据挖掘是从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识[1]。关联规则是数据挖掘的典型方法,它是描述在数据库中数据项之间同时出现的规律的知识模式。关联规则的分析方法用于隐藏在大型数据集中令人感兴趣的联系,所发现的联系可以用关联规则或频繁项集的形式
 关联规则-Apriori算法研究及其应用

                         2017-06

摘要:通过介绍关联规则模型和关联规则中提供了求频繁项集的Apriori算法,并运用实例进行解释该算法的基本实现过程。

关键字:关联规则  Apriori  数据挖掘

引言

数据挖掘是从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识[1]。关联规则是数据挖掘的典型方法,它是描述在数据库中数据项之间同时出现的规律的知识模式。关联规则的分析方法用于隐藏在大型数据集中令人感兴趣的联系,所发现的联系可以用关联规则或频繁项集的形式表示。关联规则挖掘问题首先是R. Agrawal等人于1993年提出的,而后又进一步提出了 著名的Apriori算法,该算法的主要思想是首先寻找给定数据集中的频繁项集,然后通过频繁项集生成强关联规则[2]。

Aprori算法介绍:

 它率先利用支持度对候选项集进行剪枝,系统地控制候选项集指数增长。其主要步骤分为两步,首先产生候选项集,其次是对候选项集进行剪枝产生频繁项集,由频繁1-项集L1 开始,反复迭代重复,直至找到含有最多项的频繁项集为止。

Apriori算法基本思想

 算法使迭代的方法,从1-项集开始,根据给定的支持度阈值minsup将频繁的1-项集剪枝,找到频繁1-项免L1。根据先验原理:若某个项集是频繁的,那么其所有的项集必然是频繁的。所以在产生候选2-项集,记做C2, 的时候就直接使用频繁1-项集L1来产生就可以了。产生候选2-项集之后再根据给定的minsup对候选2-项集C2进行前枝,产生频繁2-项免L2。依次类推,根据L2产生C3,将C3剪枝产生L3,......直接产生最多想的频繁项集LK为止[3]。 如前所述,Apriori算法挖掘规则的过程也可分为两步来实现:

 ①找到数据集中的所有频繁项集L。

 ②从频繁项集L中提取出强规则。

 其中①步是Apriori算法的关键所在,是决定此算法性能是否优良的评价关键,②步的实现相对比较简单。口前对于Apriori算法的改进方法也大多数足针对①步。①步的实现吋以再细分为两个操作。第一个操作是产生候选项集C,第二个操作是将已产生的候选项集C根据minsup进行剪枝,找到频繁项集L。

其中候选项免的产生也苻很多实现方法,常见的主要有:蛮力方法,Fk-1 X F1方法和Fk-1 * Fk-1方法等。

1、蛮力方法

 如果我们需要产生候选集k-项集,蛮力方法就会将所有的1-项集进行排列组合,列出所有可能的候选项集。如果有n个1-项集,则会产生个候选项集,然后再以推理3.7为依据减掉一部分不必要的候选项集。由此可见,虽然此方法候选项集的产生非常简单但操作起来比较复杂,剪枝时要考虑的候选数量太大。

2、Fk-1*F1 方法

此方法是利用Lk-1与L1组合来产生候选k-项集Ck-1.图1是此方法将频发2-项集与频繁1-项集组合差残生候选3-项集的过程。

 图1 通过合并Lk-1和L1得到候选k项集Ck

 但是由于此方法中的Lk是由Lk-1和L1组合产生的,因此不可避免产生重复候选项集。

 k-1*Fk-1方法

 此方法中候选k-项集是由合并一对频繁(k-1)-项集得到的,并且这一对频繁(k-1)项集要满足前k-2个项是相同的。即令A={a1,a2,...,ak-1}和B={b1,b2,...,bk-1},当他们满足以下条件时,合并A和B:

 i=bi(i=1,2,3,...k-2)并且ak-1不等于bk-1

和图2展示了如何利用此方法将一对频发2-项集组合产生候选3-项集的过程。

 图2 通过合并一对频繁(k-1)项集Lk-1得到候选k-项集Ck

由于此方法是合并一对频繁(k-1)-项集得到候选k-项集,所以需要在合并之前需要增加一步来确保此对频繁(k-l)-项集的前(k-2)项是相同的。

Apriori算法的频繁项集产生过程有两个特点:第一,它的过程是—个逐层迭代(level-wise)的过程,即从频繁1-项集到项数最多的频繁项集,每次产生新的频繁项集都需要遍历一遍事务集:第二,它使用生成-剪枝的规则来产生频繁项集。在每次迭代产生新的候选项集时都要使用上一次发现的频繁项集, 然后计算每一个候选项集的支持度计数,再与给定的支持度阈值进行比较,删除支持度小于支持度阈值的候选项集。

Apriori算法实例:

下图是某商场交易记录:

 交易ID

 商品ID列表

 T100
 T200
 T300
 T400
 T500
 T600
 T700
 T800
 T900
 

 (a)连接C3=L2L2={{I1,I2},{I1,I3,{I1,I5}},{I2,I3},{I2,I4},{I2,I5}}  

 {{I1,I2},{I1,I3,{I1,I5}},{I2,I3},{I2,I4},{I2,I5}}=

(b)使用Apriori性质剪枝,频繁项集的所有非空子集也必须是频繁的。

{I1,I2,I3}的第二项子集是{I1,I2},{I2,I3}和{I2,I3}。{I1,I2,I3}的所有2项子集都是L2的元素。因此,{I1,I2,I3}保留在C3中

{I1,I2,I5}的2项子集是{I1,I2},{I1,I5}和{I2,I5}。{I1,I2,I5}的所有2项子集都是L2的元素。因此,{I1,I2,I5}保留在C3中。

{I1,I3,I5}的2项子集是{I1,I3},{I1,I5}和{I3,I5}。{I3,I5}不是L2的元素,因而不是频繁的。因此从C3中删除{I1,I3,I5}。

{I2,I3,I4}的2项子集是{I2,I3},{I2,I4}和{I3,I4}。{I3,I4}不是L2的元素,因而不是频繁的,因此,从C3中删除{I2,I3,I4}。

{I2,I3,I5}的2项子集是{I2,I3},{I2,I5}和{I3,I5}。{I3,I5}不是L2的元素,因而不是频繁的,因此,从C3中删除{I2,I3,I5}

{I2,I4,I5}的2项子集是{I2,I4},{I2,I5}和{I4,I5}。{I4,I5}不是L2的元素,因而不是频繁的,因此,从C3中删除{I2,I4,I5}

剪枝后C3={{I1,I2,I3},{I1,I2,I5}}。

 总之,Apriori的目的是取出哪些之间的联系是紧密的,进而退出他们之间的关系,基于以上规则,我们可以很好地发现事物之间的联系。  

参考文献:

[1]  康敏旸,张 安.改进的Apriori 数据挖掘算法的应用[J].火力与指挥控制,2009,34(

10) :111 - 114

[2]  陈则芝,李冬梅. 数据挖掘关联规则Apriori算法的优化[J]. 山西大同大学学报(自然科学版),2008,24(4),35-37.  

[3]  黄彦.基于高校人力资源的数据挖掘技术研究:[硕士学位论文].天津:天津大学,2004     

文档

数据挖掘结课论文--- 关联规则-Apriori算法研究及其应用

关联规则-Apriori算法研究及其应用2017-06摘要:通过介绍关联规则模型和关联规则中提供了求频繁项集的Apriori算法,并运用实例进行解释该算法的基本实现过程。关键字:关联规则Apriori数据挖掘引言数据挖掘是从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识[1]。关联规则是数据挖掘的典型方法,它是描述在数据库中数据项之间同时出现的规律的知识模式。关联规则的分析方法用于隐藏在大型数据集中令人感兴趣的联系,所发现的联系可以用关联规则或频繁项集的形式
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top