发明名称 用于发现文本词间关联规则的完全加权模式挖掘方法
摘要 一种用于发现文本词间关联规则的完全加权正负模式挖掘方法,通过将待处理的完全加权数据进行预处理,构建完全加权数据库和项目库;挖掘完全加权频繁项集和负项集,剪枝获得有趣的完全加权频繁项集和负项集;采用支持度‑CPIR模型‑相关性‑兴趣度评价框架,挖掘有效的完全加权正负关联规则。本发明能够克服现有加权挖掘技术的缺陷,将项目权值客观分布于数据库中并随事务记录变化的完全加权数据特点融入该发明技术中,获得更加实际合理的完全加权正负关联模式,避免无效的和无趣的关联模式产生,所挖掘的候选项集、频繁项集和负项集以及正负关联规则模式数量均比现有技术挖掘的少,挖掘效率得到极大地提高,并且具有良好的可扩展性。
申请公布号 CN103838854B 申请公布日期 2017.03.22
申请号 CN201410096985.2 申请日期 2014.03.14
申请人 广西财经学院 发明人 黄名选
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广西南宁公平知识产权代理有限公司 45104 代理人 韦锦捷
主权项 一种用于发现文本词间关联规则的完全加权模式挖掘方法,其特征在于,包括如下步骤:(1)完全加权数据预处理阶段:将待处理的完全加权数据进行预处理,构建完全加权数据库和项目库;(2)完全加权频繁项集和负项集挖掘阶段,包括以下步骤2.1和步骤2.2:2.1、从项目库中提取完全加权候选1_项集,并挖掘完全加权频繁1_项集;具体步骤按照2.1.1~2.1.3进行:2.1.1、从项目库中提取完全加权候选1_项集;2.1.2、累加完全加权候选1_项集在完全加权数据库中的权值总和,计算其支持度;2.1.3、将完全加权候选1_项集中支持度大于或等于最小支持度阈值的完全加权频繁1_项集加入到完全加权频繁项集集合;2.2、从完全加权候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:2.2.1、将完全加权频繁(i‑1)_项集进行Apriori连接,生成完全加权候选i_项集;所述的i≥2;2.2.2、累加完全加权候选i_项集在完全加权数据库中的权值总和,计算其支持度;2.2.3、从完全加权候选i_项集中将其支持度不小于支持度阈值的频繁i_项集取出,存入完全加权频繁项集集合,同时,将其支持度小于支持度阈值的完全加权负i_项集存入完全加权负项集集合;2.2.4、将i的值加1,如果频繁(i‑1)_项集为空就转入(3)步,否则,继续2.2.1~2.2.3步骤;(3)剪枝阶段:通过剪枝阶段获得有趣的完全加权频繁项集和负项集:3.1、对于频繁项集集合中的每一个频繁i‑项集awL<sub>i</sub>,计算IAWFI(awL<sub>i</sub>)值,剪除其IAWFI(awL<sub>i</sub>)值为假的频繁项集,剪枝后得到有趣的完全加权频繁项集集合;IAWFI(awL<sub>i</sub>)计算公式如下:<img file="FDA0001172027830000011.GIF" wi="1948" he="190" />其中,awItemsetInt(I<sub>1</sub>∪I<sub>2</sub>)=awsup(I<sub>1</sub>)×awsup(I<sub>1</sub>∪I<sub>2</sub>)×(1–awsup(I<sub>2</sub>)),awItemsetInt(﹁I<sub>1</sub>,﹁I<sub>2</sub>)=awsup(I<sub>2</sub>)×(1–awsup(I<sub>1</sub>))×(1–awsup(I<sub>1</sub>)–awsup(I<sub>2</sub>)+awsup(I<sub>1</sub>∪I<sub>2</sub>)),minInt为最小兴趣度阈值,minsup最小支持度阈值;3.2、对于完全加权负项集集合中的每一个负i‑项集awN<sub>i</sub>,计算IAWNI(awN<sub>i</sub>)值,剪除其IAWNI(awN<sub>i</sub>)值为假的负项集,剪枝后得到有趣的完全加权负项集集合;IAWNI(awN<sub>i</sub>)的计算公式如下:<img file="FDA0001172027830000012.GIF" wi="2013" he="186" />其中,awItemsetInt(I<sub>1</sub>∪I<sub>2</sub>)=awsup(I<sub>1</sub>)×awsup(I<sub>1</sub>∪I<sub>2</sub>)×(1–awsup(I<sub>2</sub>));awItemsetInt(I<sub>1</sub>∪﹁I<sub>2</sub>)=awsup(I<sub>1</sub>)×awsup(I<sub>2</sub>)×(awsup(I<sub>1</sub>)–awsup(I<sub>1</sub>∪I<sub>2</sub>));awItemsetInt(﹁I<sub>1</sub>∪I<sub>2</sub>)=(1–awsup(I<sub>1</sub>))×(1–awsup(I<sub>2</sub>)×(awsup(I<sub>2</sub>)–awsup(I<sub>1</sub>∪I<sub>2</sub>));awItemsetInt(﹁I<sub>1</sub>∪﹁I<sub>2</sub>)=awsup(I<sub>2</sub>)×(1–awsup(I<sub>1</sub>))×(1–awsup(I<sub>1</sub>)–awsup(I<sub>2</sub>)+awsup(I<sub>1</sub>∪I<sub>2</sub>));(4)从有趣的完全加权频繁项集集合中挖掘有效的完全加权正负关联规则,包括以下步骤:4.1、从有趣的完全加权频繁项集集合取出频繁项集awL<sub>i</sub>,求出awL<sub>i</sub>的所有真子集,构建awL<sub>i</sub>的真子集集合,然后进行下列操作:4.2.1、从awL<sub>i</sub>的真子集集合中任意取出两个真子集I<sub>1</sub>和I<sub>2</sub>,当I<sub>1</sub>和I<sub>2</sub>的交集为空集,I<sub>1</sub>和I<sub>2</sub>的项目个数之和等于其原频繁项集的项目个数,以及I<sub>1</sub>和I<sub>2</sub>的支持度都不小于支持度阈值,则计算频繁项集(I<sub>1</sub>∪I <sub>2</sub>)的项内权值比awIWR(I<sub>1</sub>,I<sub>2</sub>)及其维数比awIDR(I<sub>1</sub>,I<sub>2</sub>);awIWR(I<sub>1</sub>,I<sub>2</sub>)及awIDR(I<sub>1</sub>,I<sub>2</sub>)的计算公式如下:<maths num="0001"><math><![CDATA[<mrow><mi>a</mi><mi>w</mi><mi>I</mi><mi>W</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>,</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>w</mi><mn>12</mn></msub><mrow><msub><mi>w</mi><mn>1</mn></msub><mo>&times;</mo><msub><mi>w</mi><mn>2</mn></msub></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0001172027830000021.GIF" wi="417" he="94" /></maths><maths num="0002"><math><![CDATA[<mrow><mi>a</mi><mi>w</mi><mi>I</mi><mi>D</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>,</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>k</mi><mn>12</mn></msub><mrow><msub><mi>k</mi><mn>1</mn></msub><mo>&times;</mo><msub><mi>k</mi><mn>2</mn></msub></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0001172027830000022.GIF" wi="399" he="103" /></maths>w<sub>12</sub>和w<sub>1</sub>、w<sub>2</sub>分别为完全加权项集(I<sub>1</sub>,I<sub>2</sub>)及其子项集I<sub>1</sub>和I<sub>2</sub>在完全加权数据库AWD中的权值总和,k<sub>12</sub>,k<sub>1</sub>和k<sub>2</sub>分别为项集(I<sub>1</sub>,I<sub>2</sub>)及其子项集I<sub>1</sub>和I<sub>2</sub>的项目个数;4.2.2、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I<sub>1</sub>,I<sub>2</sub>)的乘积大于其维数比awIDR(I<sub>1</sub>,I<sub>2</sub>)时,即n×awIWR(I<sub>1</sub>,I<sub>2</sub>)&gt;awIDR(I<sub>1</sub>,I<sub>2</sub>)时,进行如下操作:4.2.2.1若I<sub>1</sub>→I<sub>2</sub>的awCPIR值awCPIR(I<sub>1</sub>→I<sub>2</sub>)不小于置信度阈值minconf,则挖掘出完全加权关联规则I<sub>1</sub>→I<sub>2</sub>;若I<sub>2</sub>→I<sub>1</sub>的awCPIR值awCPIR(I<sub>2</sub>→I<sub>1</sub>)不小于置信度阈值minconf,则挖掘出完全加权关联规则I<sub>2</sub>→I<sub>1</sub>;awCPIR(I<sub>1</sub>→I<sub>2</sub>)和awCPIR(I<sub>2</sub>→I<sub>1</sub>)的计算公式如下:<maths num="0003"><math><![CDATA[<mrow><mi>awCPIR</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>&RightArrow;</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>&cup;</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0001172027830000023.GIF" wi="1133" he="115" /></maths><maths num="0004"><math><![CDATA[<mrow><mi>awCPIR</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>&RightArrow;</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>&cup;</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>awsup</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0001172027830000024.GIF" wi="1133" he="118" /></maths>4.2.2.2若﹁I<sub>1</sub>∪﹁I<sub>2</sub>的支持度awsup(﹁I<sub>1</sub>∪﹁I<sub>2</sub>)不小于支持度阈值minsup,那么,①如果﹁I<sub>1</sub>→﹁I<sub>2</sub>的awCPIR值awCPIR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>1</sub>→﹁I<sub>2</sub>;②如果﹁I<sub>2</sub>→﹁I<sub>1</sub>的awCPIR值awCPIR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>2</sub>→﹁I<sub>1</sub>;awsup(﹁I<sub>1</sub>∪﹁I<sub>2</sub>)、awCPIR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)和awCPIR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)的计算公式如下:awsup(﹁I<sub>1</sub>∪﹁I<sub>2</sub>)=awsup(﹁I<sub>1</sub>∪﹁I<sub>2</sub>)=1–awsup(I<sub>1</sub>)–awsup(I<sub>2</sub>)+awsup(I<sub>1</sub>∪I<sub>2</sub>);<img file="FDA0001172027830000025.GIF" wi="1214" he="119" /><img file="FDA0001172027830000026.GIF" wi="1214" he="119" />4.2.3、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I<sub>1</sub>,I<sub>2</sub>)的乘积小于其维数比awIDR(I<sub>1</sub>,I<sub>2</sub>)时,即n×awIWR(I<sub>1</sub>,I<sub>2</sub>)&lt;awIDR(I<sub>1</sub>,I<sub>2</sub>)时,进行如下操作:4.2.3.1若I<sub>1</sub>∪﹁I<sub>2</sub>的支持度awsup(I<sub>1</sub>∪﹁I<sub>2</sub>)不小于支持度阈值minsup,那么,①如果I<sub>1</sub>→﹁I<sub>2</sub>的awCPIR值awCPIR(I<sub>1</sub>→﹁I<sub>2</sub>)不小于置信度阈值minconf,则挖掘出完全加权负关联规则I<sub>1</sub>→﹁I<sub>2</sub>;②如果﹁I<sub>2</sub>→I<sub>1</sub>的awCPIR值awCPIR(﹁I<sub>2</sub>→I<sub>1</sub>)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>2</sub>→I<sub>1</sub>;awsup(I<sub>1</sub>∪﹁I<sub>2</sub>)、awCPIR(I<sub>1</sub>→﹁I<sub>2</sub>)和awCPIR(﹁I<sub>2</sub>→I<sub>1</sub>)的计算公式如下:awsup(I<sub>1</sub>→﹁I<sub>2</sub>)=awsup(I<sub>1</sub>∪﹁I<sub>2</sub>)=awsup(I<sub>1</sub>)–awsup(I<sub>1</sub>∪I<sub>2</sub>);<img file="FDA0001172027830000027.GIF" wi="1252" he="131" /><img file="FDA0001172027830000031.GIF" wi="1254" he="127" />4.2.3.2若﹁I<sub>1</sub>∪I<sub>2</sub>的支持度awsup(﹁I1∪I2)不小于支持度阈值minsup,那么,①如果﹁I<sub>1</sub>→I<sub>2</sub>的awCPIR值awCPIR(﹁I<sub>1</sub>→I<sub>2</sub>)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>1</sub>→I<sub>2</sub>;②如果I<sub>2</sub>→﹁I<sub>1</sub>的awCPIR值awCPIR(I<sub>2</sub>→﹁I<sub>1</sub>)不小于置信度阈值minconf,则挖掘出完全加权负关联规则I<sub>2</sub>→﹁I<sub>1</sub>;awsup(﹁I<sub>1</sub>∪I<sub>2</sub>)、awCPIR(﹁I<sub>1</sub>→I<sub>2</sub>)和awCPIR(I<sub>2</sub>→﹁I<sub>1</sub>)的计算公式如下:awsup(﹁I<sub>1</sub>→I<sub>2</sub>)=awsup(﹁I<sub>1</sub>∪I<sub>2</sub>)=awsup(I<sub>2</sub>)–awsup(I<sub>1</sub>∪I<sub>2</sub>);<img file="FDA0001172027830000032.GIF" wi="1254" he="123" /><img file="FDA0001172027830000033.GIF" wi="1254" he="127" />4.2.4、继续4.2.1~4.2.3步骤,如果awL<sub>i</sub>的真子集集合中每个真子集都当且仅当被取出一次,则转入4.2.5步;4.2.5,继续4.1步骤,如果有趣的完全加权频繁项集集合中每个频繁项集awL<sub>i</sub>都当且仅当被取出一次,则转入第(5)步;(5)从有趣的完全加权负项集集合中挖掘有效的完全加权负关联规则,包括以下步骤:5.1、从有趣的完全加权负项集集合取出负项集awN<sub>i</sub>,求出awN<sub>i</sub>的所有真子集,构建awN<sub>i</sub>的真子集集合,然后进行下列操作:5.2.1、从awN<sub>i</sub>的真子集集合中任意取出两个真子集I<sub>1</sub>和I<sub>2</sub>,当I<sub>1</sub>和I<sub>2</sub>的交集为空集,I<sub>1</sub>和I<sub>2</sub>的项目个数之和等于其原频繁项集的项目个数,以及I<sub>1</sub>和I<sub>2</sub>的支持度都大于或者等于支持度阈值,则计算负项集I<sub>1</sub>∪I<sub>2</sub>的项内权值比awIWR(I<sub>1</sub>,I<sub>2</sub>)及其维数比awIDR(I<sub>1</sub>,I<sub>2</sub>);5.2.2、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I<sub>1</sub>,I<sub>2</sub>)的乘积大于其维数比awIDR(I<sub>1</sub>,I<sub>2</sub>)时,即n×awIWR(I<sub>1</sub>,I<sub>2</sub>)&gt;awIDR(I<sub>1</sub>,I<sub>2</sub>)时,进行如下操作:5.2.2.1若﹁I<sub>1</sub>∪﹁I<sub>2</sub>的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I<sub>1</sub>→﹁I<sub>2</sub>的awCPIR值awCPIR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>1</sub>→﹁I<sub>2</sub>;②如果﹁I<sub>2</sub>→﹁I<sub>1</sub>的awCPIR值awCPIR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>2</sub>→﹁I<sub>1</sub>;5.2.3、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I<sub>1</sub>,I<sub>2</sub>)的乘积小于其维数比awIDR(I<sub>1</sub>,I<sub>2</sub>)时,即n×awIWR(I<sub>1</sub>,I<sub>2</sub>)&lt;awIDR(I<sub>1</sub>,I<sub>2</sub>)时,进行如下操作:5.2.3.1若I<sub>1</sub>∪﹁I<sub>2</sub>的支持度大于或者等于支持度阈值minsup,那么,①如果I<sub>1</sub>→﹁I<sub>2</sub>的awCPIR值awCPIR(I<sub>1</sub>→﹁I<sub>2</sub>)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I<sub>1</sub>→﹁I<sub>2</sub>;②如果﹁I<sub>2</sub>→I<sub>1</sub>的awCPIR值awCPIR(﹁I<sub>2</sub>→I<sub>1</sub>)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>2</sub>→I<sub>1</sub>;5.2.3.2若﹁I<sub>1</sub>∪I<sub>2</sub>的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I<sub>1</sub>→I<sub>2</sub>的awCPIR值awCPIR(﹁I<sub>1</sub>→I<sub>2</sub>)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I<sub>1</sub>→I<sub>2</sub>;②如果I<sub>2</sub>→﹁I<sub>1</sub>的awCPIR值awCPIR(I<sub>2</sub>→﹁I<sub>1</sub>)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I<sub>2</sub>→﹁I<sub>1</sub>;5.2.4、继续5.2.1~5.2.3步骤,如果awN<sub>i</sub>的真子集集合中每个真子集都当且仅当被取出一次,则转入5.2.5步;5.2.5、继续5.1步骤,如果有趣的完全加权负项集集合中每个负项集awN<sub>i</sub>都当且仅当被取出一次,则完全加权正负关联规则挖掘结束;“﹁”为负相关符号,﹁I<sub>1</sub>表示在事务处理中不出现I<sub>1</sub>的事件,称为负项集I<sub>1</sub>;I <sub>1</sub>∪﹁I<sub>2</sub>表示一个项集,该项集有子项集I<sub>1</sub>和负子项集I<sub>2</sub>;关联规则I<sub>1</sub>→﹁I<sub>2</sub>其含义是:如果子集I<sub>1</sub>的事件出现或者发生,那么子集I<sub>2</sub>的事件不会出现或者不发生。
地址 530003 广西壮族自治区南宁市明秀西路100号