发明名称 一种面向大规模数据的关联规则树挖掘方法
摘要 本发明涉及一种面向大规模数据的关联规则树挖掘方法,包括以下步骤:S1.对原始数据进行预处理,将原始数据的数据结构处理为便于遍历的数据结构;S2.遍历每项数据,将每项数据包含的属性名、属性名的值名及其支持度缓存起来,生成1‑候选项集C<sub>1</sub>;S3.由1‑候选项集C<sub>1</sub>生成1‑频繁项集L<sub>1</sub>;S4.由k‑频繁项集L<sub>k</sub>生成k+1‑候选项集C<sub>k+1</sub>;S5.由k+1‑候选项集C<sub>k+1</sub>生成k+1‑频繁项集L<sub>k+1</sub>;S6.重复执行步骤S4~S5直至不能生成新的k+1‑频繁项集L<sub>k+1</sub>;S7.将步骤S6获得的所有的频繁项集用于生成规则;S8.过滤出能被规则分类的数据,不能被规则分类的数据重复执行步骤S1~步骤S7,直至没有规则生成。
申请公布号 CN105912660A 申请公布日期 2016.08.31
申请号 CN201610221837.8 申请日期 2016.04.11
申请人 中山大学 发明人 王昌栋;赖剑煌;李宏钊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 林丽明
主权项 一种面向大规模数据的关联规则树挖掘方法,其特征在于:包括以下步骤:S1.对原始数据进行预处理,将原始数据的数据结构处理为便于遍历的数据结构;S2.遍历每项数据,将每项数据包含的属性名、属性名的值名及其支持度缓存起来,生成1‑候选项集C<sub>1</sub>;S3.由1‑候选项集C<sub>1</sub>生成1‑频繁项集L<sub>1</sub>;S4.由k‑频繁项集L<sub>k</sub>生成k+1‑候选项集C<sub>k+1</sub>:设k‑频繁项集L<sub>k</sub>中某一个项集为I,找出该项集中属性名最靠右的属性,设为A,然后在1‑频繁项集L<sub>1</sub>中找到一个比A更靠右的属性,拼接到I的后面;对k‑频繁项集L<sub>k</sub>中所有的项集进行以上操作,则生成了k+1‑候选项集C<sub>k+1</sub>;S5.由k+1‑候选项集C<sub>k+1</sub>生成k+1‑频繁项集L<sub>k+1</sub>;S6.重复执行步骤S4~S5直至不能生成新的k+1‑频繁项集L<sub>k+1</sub>;S7.将步骤S6获得的所有的频繁项集用于生成规则;S8.过滤出能被规则分类的数据,不能被规则分类的数据重复执行步骤S1~步骤S7,直至没有规则生成。
地址 510275 广东省广州市海珠区新港西路135号