关联规则中的一些典型算法
2.1 Apriori算法
关于关联规则发现的算法相当多,但绝大部分是经典算法Apriori的演绎和改进。Apriori是一种宽度优先算法,通过对数据库的多趟扫描来发现所有的频繁项目集,在每一趟扫描中只考虑具有同长度k(即项目集中所含项目的个数)的所有k项目集。
2.1.1 Apriori算法描述
Apriori算法的具体描述:
第一步:初始化数据库,根据条件初始化数据库,扫描事务数据库,从中找出所有的项集长度为k=l的项集,且支持度大于S,形成1_项频繁项集L1;本文来自辣~文\论|文/网,
毕业论文 www.751com.cn 加7位QQ324'9114找源文
第二步:根据频繁k_项集产生候选(k+1)_项候选项集Ck+1:如果Ck+1≠Φ进入下一步,否则循环结束;
第三步:扫描数据库,以确定每个候选项集的支持度;
第四步:删除候选项中支持度小于S的候选项形成(k+1)_频繁项集Lk+1;
第五步: k=k+1;转入第二步。
Apriori算法的第一步就是发现频繁1_项集L1;在第二至第五步,利用Lk-1产生Ck以便获得Lk。在这过程产生相应的候选项集;然后利用Apriori性质删除那些子集为非频繁项集的候选项集。一旦产生所有候选,就要扫描数据库,由此求出每个候选项集的支持度(算法中的第三步)。最终满足最小支持频度的候选项集组成了频繁项集Lk+1。这样可以利用该过程来帮助从所获得频繁项集中生成所有的关联规则。
上一页 [1] [2] [3] [4]
Apriori算法数据挖掘中关联规则算法的研究及应用 第4页下载如图片无法显示或论文不完整,请联系qq752018766