发明名称 | 一种面向大规模数据的关联规则树挖掘方法 | ||
摘要 | 本发明涉及一种面向大规模数据的关联规则树挖掘方法,包括以下步骤:S1.对原始数据进行预处理,将原始数据的数据结构处理为便于遍历的数据结构;S2.遍历每项数据,将每项数据包含的属性名、属性名的值名及其支持度缓存起来,生成1‑候选项集C<sub>1</sub>;S3.由1‑候选项集C<sub>1</sub>生成1‑频繁项集L<sub>1</sub>;S4.由k‑频繁项集L<sub>k</sub>生成k+1‑候选项集C<sub>k+1</sub>;S5.由k+1‑候选项集C<sub>k+1</sub>生成k+1‑频繁项集L<sub>k+1</sub>;S6.重复执行步骤S4~S5直至不能生成新的k+1‑频繁项集L<sub>k+1</sub>;S7.将步骤S6获得的所有的频繁项集用于生成规则;S8.过滤出能被规则分类的数据,不能被规则分类的数据重复执行步骤S1~步骤S7,直至没有规则生成。 | ||
申请公布号 | CN105912660A | 申请公布日期 | 2016.08.31 |
申请号 | CN201610221837.8 | 申请日期 | 2016.04.11 |
申请人 | 中山大学 | 发明人 | 王昌栋;赖剑煌;李宏钊 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 广州粤高专利商标代理有限公司 44102 | 代理人 | 林丽明 |
主权项 | 一种面向大规模数据的关联规则树挖掘方法,其特征在于:包括以下步骤:S1.对原始数据进行预处理,将原始数据的数据结构处理为便于遍历的数据结构;S2.遍历每项数据,将每项数据包含的属性名、属性名的值名及其支持度缓存起来,生成1‑候选项集C<sub>1</sub>;S3.由1‑候选项集C<sub>1</sub>生成1‑频繁项集L<sub>1</sub>;S4.由k‑频繁项集L<sub>k</sub>生成k+1‑候选项集C<sub>k+1</sub>:设k‑频繁项集L<sub>k</sub>中某一个项集为I,找出该项集中属性名最靠右的属性,设为A,然后在1‑频繁项集L<sub>1</sub>中找到一个比A更靠右的属性,拼接到I的后面;对k‑频繁项集L<sub>k</sub>中所有的项集进行以上操作,则生成了k+1‑候选项集C<sub>k+1</sub>;S5.由k+1‑候选项集C<sub>k+1</sub>生成k+1‑频繁项集L<sub>k+1</sub>;S6.重复执行步骤S4~S5直至不能生成新的k+1‑频繁项集L<sub>k+1</sub>;S7.将步骤S6获得的所有的频繁项集用于生成规则;S8.过滤出能被规则分类的数据,不能被规则分类的数据重复执行步骤S1~步骤S7,直至没有规则生成。 | ||
地址 | 510275 广东省广州市海珠区新港西路135号 |