发明名称 文本词间完全加权正负关联模式挖掘方法及其挖掘系统
摘要 一种文本词间完全加权正负关联模式挖掘方法及其挖掘系统,利用中文文本预处理模块进行预处理,构建文本数据库和特征词项目库;利用特征词频繁项集和负项集挖掘实现模块从文本数据库中挖掘完全加权特征词候选项集,计算权重维数比,采用多兴趣度阈值剪枝策略剪除无趣的项集,得出有趣的完全加权特征词频繁项集和负项集模式;利用完全加权词间正负关联规则挖掘实现模块从频繁项集和负项集中挖掘有效的完全加权特征词正负关联规则模式,利用完全加权词间关联模式结果显示模块将挖掘到的正负关联规则模式输出给用户。本发明能够大幅度减少不必要的频繁项集、负项集和关联规则模式产生,提高中文特征词关联规则挖掘效率,获得高质量的中文词间关联模式。
申请公布号 CN103955542B 申请公布日期 2017.03.22
申请号 CN201410213073.9 申请日期 2014.05.20
申请人 广西财经学院 发明人 黄名选
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广西南宁公平知识产权代理有限公司 45104 代理人 韦锦捷
主权项 一种文本词间完全加权正负关联模式挖掘方法,其特征在于,包括如下步骤:(1)中文文本数据预处理:将待处理的中文文本数据进行预处理:分词、去除停用词、提取特征词及其权值计算,同时,计算最小项集权重维数比阈值minwdR;中文文本数据预处理的结果是构建中文文本数据库Text database,即TD,以及特征词项目库;最小项集权重维数比阈值minwdR计算公式是:minwdR=n×minsup,n为中文文本数据库记录数,minsup为最小支持度阈值;特征词权值计算公式是:w<sub>ij</sub>=(0.5+0.5×tf<sub>ij</sub>/max<sub>j</sub>(tf<sub>ij</sub>))×idf<sub>i</sub>,其中,w<sub>ij</sub>为第i个特征词在第j篇文档的权值,tf<sub>ij</sub>为第i个特征词在第j篇文档的词频,idf<sub>i</sub>为第i个特征词的逆向文档频度,其值idf<sub>i</sub>=log(N/df<sub>i</sub>),N为文档集中文档总数,df<sub>i</sub>为含有第i个特征词的文档数量;(2)挖掘完全加权特征词频繁项集和负项集,包括以下步骤2.1和步骤2.2:2.1、从特征词项目库中提取特征词候选1_项集C<sub>1</sub>,并挖掘完全加权特征词频繁1_项集L<sub>1</sub>;具体步骤按照2.1.1~2.1.3进行:2.1.1、从特征词项目库中提取特征词候选1_项集C<sub>1</sub>;2.1.2、累加特征词候选1_项集C<sub>1</sub>在中文文本数据库TD中的权值总和<img file="FDA0001161413340000011.GIF" wi="95" he="55" />计算其项集权重维数比wdR(C<sub>1</sub>);<maths num="0001"><math><![CDATA[<mrow><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>w</mi><msub><mi>C</mi><mn>1</mn></msub></msub></mrow>]]></math><img file="FDA0001161413340000012.GIF" wi="281" he="62" /></maths>其中,<img file="FDA0001161413340000013.GIF" wi="397" he="103" />是特征词候选1_项集C<sub>1</sub>在TD中的权值总和;2.1.3、将特征词候选1_项集C<sub>1</sub>中其项集权重维数比wdR(C<sub>1</sub>)大于或等于最小项集权重维数比阈值minwdR即wdR(C<sub>1</sub>)≥minwdR的频繁1_项集L<sub>1</sub>加入到特征词频繁项集集合termPIS;2.2、从完全加权特征词候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:2.2.1、将特征词频繁(i‑1)_项集进行Apriori连接,生成特征词候选i_项集C<sub>i</sub>;其中i≥2;2.2.2、累加特征词候选i_项集C<sub>i</sub>在中文文本数据库TD中的权值总和<img file="FDA0001161413340000014.GIF" wi="66" he="55" />以及计算其项集权重维数比wdR(C<sub>i</sub>);<maths num="0002"><math><![CDATA[<mrow><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>w</mi><msub><mi>C</mi><mi>i</mi></msub></msub><mi>k</mi></mfrac></mrow>]]></math><img file="FDA0001161413340000015.GIF" wi="297" he="103" /></maths>其中,<img file="FDA0001161413340000016.GIF" wi="421" he="103" />是特征词候选i_项集C<sub>i</sub>在TD中的权值总和,k为特征词候选i_项集C<sub>i</sub>的项目个数;2.2.3、特征词候选i_项集的项集权重维数比wdR(C<sub>i</sub>)与最小项集权重维数比阈值minwdR比较,将特征词候选i_项集中其项集权重维数比不小于最小项集权重维数比阈值即wdR(C<sub>i</sub>)≥minwdR的特征词频繁i‑项集L<sub>i</sub>取出,存入特征词频繁项集集合termPIS,同时,将其项集权重维数小于支最小项集权重维数比阈值即wdR(C<sub>i</sub>)&lt;minwdR的特征词负i_项集N<sub>i</sub>存入特征词负项集集合termNIS;2.2.4、将i的值加1,当特征词频繁(i‑1)_项集L<sub>i‑1</sub>为空就转入(3)步,否则,继续2.2.1~2.2.3步骤;(3)特征词频繁项集和负项集剪枝:3.1、对于特征词频繁项集集合termPIS中的每一个频繁i‑项集L<sub>i</sub>,根据最小频繁项集兴趣度阈值minFIInt,计算InterestingFI(L<sub>i</sub>,minFIInt)值,剪除其InterestingFI(L<sub>i</sub>,minFIInt)值为假false的频繁项集,剪枝后得到新的特征词频繁项集集合termPIS;InterestingFI(L<sub>k</sub>,minFIInt)的计算公式如下:<img file="FDA0001161413340000021.GIF" wi="2013" he="143" />其中,wdR(I<sub>1</sub>)、wdR(I<sub>2</sub>)、awAPInt(I<sub>1</sub>,I<sub>2</sub>)和awAPInt(﹁I<sub>1</sub>,﹁I<sub>2</sub>)的计算公式如下:<img file="FDA0001161413340000022.GIF" wi="742" he="118" />是项集I<sub>1</sub>在TD中的权值总和,k<sub>1</sub>为项集I<sub>1</sub>的项目个数;<img file="FDA0001161413340000023.GIF" wi="763" he="119" />是项集I<sub>2</sub>在TD中的权值总和,k<sub>1</sub>为项集I<sub>2</sub>的项目个数;<img file="FDA0001161413340000024.GIF" wi="875" he="103" />其中,n为文本数据库TD记录数,<img file="FDA0001161413340000025.GIF" wi="941" he="119" />是项集L<sub>i</sub>=(I<sub>1</sub>∪I<sub>2</sub>)在TD中的权值总和,k为项集L<sub>i</sub>=(I<sub>1</sub>∪I<sub>2</sub>)的项目个数;<img file="FDA0001161413340000026.GIF" wi="1364" he="103" />3.2、对于特征词负项集集合termNIS中的每一个负i‑项集N<sub>i</sub>,根据最小负项集兴趣度阈值minNIInt,计算InterestingNI(N<sub>i</sub>,minNIInt)值,剪除其InterestingNI(N<sub>i</sub>,minNIInt)值为假false的负项集,剪枝后得到新的特征词负项集集合;InterestingNI(N<sub>k</sub>,minNIInt)的计算公式如下:<img file="FDA0001161413340000027.GIF" wi="1894" he="231" />其中,wdR(I<sub>1</sub>)、wdR(I<sub>2</sub>)和awAPInt(﹁I<sub>1</sub>,﹁I<sub>2</sub>)的计算公式同3.1的,awAPInt(I<sub>1</sub>,﹁I<sub>2</sub>)和awAPInt(﹁I<sub>1</sub>,I<sub>2</sub>)的计算公式如下:<img file="FDA0001161413340000031.GIF" wi="1278" he="119" /><img file="FDA0001161413340000032.GIF" wi="1373" he="126" />(4)从特征词频繁项集集合中挖掘有效的完全加权特征词正负关联规则,包括以下步骤:4.1、从特征词频繁项集集合termPIS取出特征词频繁项集L<sub>i</sub>,求出L<sub>i</sub>的所有真子集,构建L<sub>i</sub>的真子集集合,然后进行下列操作:4.2.1、从L<sub>i</sub>的真子集集合中任意取出两个真子集I<sub>1</sub>和I<sub>2</sub>,当I<sub>1</sub>和I<sub>2</sub>没有交集即<img file="FDA0001161413340000033.GIF" wi="206" he="54" />并且它们的项目个数之和等于其原频繁项集的项目个数即I<sub>1</sub>∪I<sub>2</sub>=L<sub>i</sub>,则分别计算特征词频繁项集I<sub>1</sub>∪I<sub>2</sub>、I<sub>1</sub>和I<sub>2</sub>的项集权重维数比wdR(I<sub>1</sub>∪I<sub>2</sub>)、wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>);wdR(I<sub>1</sub>∪I<sub>2</sub>)、wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)的计算公式同步骤3.1;4.2.2、当I<sub>1</sub>和I<sub>2</sub>的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I<sub>1</sub>)≥minwdR且wdR(I<sub>2</sub>)≥minwdR,以及中文文本数据库记录总数n和上述步骤4.2.1的特征词频繁项集I<sub>1</sub>∪I<sub>2</sub>的项集权重维数比wdR(I<sub>1</sub>∪I<sub>2</sub>)的乘积大于I<sub>1</sub>和I<sub>2</sub>的项集权重维数比wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)的乘积时即n×wdR(I<sub>1</sub>∪I<sub>2</sub>)&gt;wdR(I<sub>1</sub>)×wdR(I<sub>2</sub>),进行如下操作,所述的wdR(I<sub>1</sub>∪I<sub>2</sub>)、wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)计算公式同步骤3.1;4.2.2.1当特征词频繁项集(I<sub>1</sub>,I<sub>2</sub>)的兴趣度awAPInt(I<sub>1</sub>,I<sub>2</sub>)不小于最小频繁项集兴趣度阈值minFIInt即awAPInt(I<sub>1</sub>,I<sub>2</sub>)≥minFIInt,且I<sub>1</sub>→I<sub>2</sub>的概率比awARPR(I<sub>1</sub>→I<sub>2</sub>)以及I<sub>2</sub>→I<sub>1</sub>的概率比awARPR(I<sub>2</sub>→I<sub>1</sub>)都不小于置信度阈值minconf即awARPR(I<sub>1</sub>→I<sub>2</sub>)≥minconf,awARPR(I<sub>2</sub>→I<sub>1</sub>)≥minconf,则挖掘出特征词关联规则I<sub>1</sub>→I<sub>2</sub>和I<sub>2</sub>→I<sub>1</sub>;awAPInt(I<sub>1</sub>,I<sub>2</sub>)的计算公式同步骤3.1;awARPR(I<sub>1</sub>→I<sub>2</sub>)和awARPR(I<sub>2</sub>→I<sub>1</sub>)计算公式如下:<maths num="0003"><math><![CDATA[<mrow><mi>a</mi><mi>w</mi><mi>A</mi><mi>R</mi><mi>P</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>&RightArrow;</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>n</mi><mo>&times;</mo><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>&cup;</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mi>w</mi><mi>d</mi><mi>R</mi><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0001161413340000034.GIF" wi="870" he="102" /></maths><maths num="0004"><math><![CDATA[<mrow><mi>a</mi><mi>w</mi><mi>A</mi><mi>R</mi><mi>P</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>&RightArrow;</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>n</mi><mo>&times;</mo><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>&cup;</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo></mrow><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>w</mi><mi>d</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mi>w</mi><mi>d</mi><mi>R</mi><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>)</mo><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0001161413340000035.GIF" wi="869" he="103" /></maths>4.2.2.2当特征词负项集(﹁I<sub>1</sub>,﹁I<sub>2</sub>)的兴趣度awAPInt(﹁I<sub>1</sub>,﹁I<sub>2</sub>)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I<sub>1</sub>,﹁I<sub>2</sub>)≥minNIInt,并且(﹁I<sub>1</sub>,﹁I<sub>2</sub>)的支持度awsup(﹁I<sub>1</sub>,﹁I<sub>2</sub>)不小于支持度阈值minsup即awsup(﹁I<sub>1</sub>∪﹁I<sub>2</sub>)≥minsup,﹁I<sub>1</sub>→﹁I<sub>2</sub>的概率比awARPR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)以及﹁I<sub>2</sub>→﹁I<sub>1</sub>的概率比awARPR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)都不小于置信度阈值minconf即awARPR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)≥minconf,awARPR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)≥minconf,则挖掘出特征词负关联规则﹁I<sub>1</sub>→﹁I<sub>2</sub>和﹁I<sub>2</sub>→﹁I<sub>1</sub>;awARPR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)和awARPR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)的计算公式如下:<img file="FDA0001161413340000036.GIF" wi="934" he="100" /><img file="FDA0001161413340000037.GIF" wi="934" he="102" />4.2.3、当I<sub>1</sub>和I<sub>2</sub>的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I<sub>1</sub>)≥minwdR,wdR(I<sub>2</sub>)≥minwdR,以及中文文本数据库中事务记录总数n和上述步骤4.2.1的特征词频繁项集(I<sub>1</sub>∪I<sub>2</sub>)的项集权重维数比wdR(I<sub>1</sub>∪I<sub>2</sub>)的乘积小于I<sub>1</sub>和I<sub>2</sub>的项集权重维数比wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)的乘积时即n×wdR(I<sub>1</sub>∪I<sub>2</sub>)&lt;wdR(I<sub>1</sub>)×wdR(I<sub>2</sub>),进行如下操作,所述的wdR(I<sub>1</sub>∪I<sub>2</sub>)、wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)计算公式同步骤3.1;4.2.3.1当特征词负项集(I<sub>1</sub>∪﹁I<sub>2</sub>)的支持度不小于支持度阈值minsup即awsup(I<sub>1</sub>∪﹁I<sub>2</sub>)≥minsup,并且I<sub>1</sub>∪﹁I<sub>2</sub>的兴趣度awAPInt(I<sub>1</sub>,﹁I<sub>2</sub>)不小于最小负项集兴趣度阈值minNIInt即awAPInt(I<sub>1</sub>,﹁I<sub>2</sub>)≥minNIInt,I<sub>1</sub>→﹁I<sub>2</sub>的概率比awARPR(I<sub>1</sub>→﹁I<sub>2</sub>)以及﹁I<sub>2</sub>→I<sub>1</sub>的概率比awARPR(﹁I<sub>2</sub>→I<sub>1</sub>)都不小于置信度阈值minconf即awARPR(I<sub>1</sub>→﹁I<sub>2</sub>)≥minconf,awARPR(﹁I<sub>2</sub>→I<sub>1</sub>)≥minconf,则挖掘出特征词负关联规则I<sub>1</sub>→﹁I<sub>2</sub>和﹁I<sub>2</sub>→I<sub>1</sub>;<img file="FDA0001161413340000041.GIF" wi="911" he="103" /><img file="FDA0001161413340000042.GIF" wi="926" he="103" />4.2.3.2当特征词负项集(﹁I<sub>1</sub>∪I<sub>2</sub>)的支持度不小于支持度阈值minsup即awsup(﹁I<sub>1</sub>∪I<sub>2</sub>)≥minsup,并且﹁I<sub>1</sub>∪I<sub>2</sub>的兴趣度awAPInt(﹁I<sub>1</sub>,I<sub>2</sub>)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I<sub>1</sub>,I<sub>2</sub>)≥minNIInt,﹁I<sub>1</sub>→I<sub>2</sub>的概率比awARPR(﹁I<sub>1</sub>→I<sub>2</sub>)以及I<sub>2</sub>→﹁I<sub>1</sub>的概率比awARPR(I<sub>2</sub>→﹁I<sub>1</sub>)都不小于置信度阈值minconf即awARPR(﹁I<sub>1</sub>→I<sub>2</sub>)≥minconf,awARPR(I<sub>2</sub>→﹁I<sub>1</sub>)≥minconf,则挖掘出特征词负关联规则﹁I<sub>1</sub>→I<sub>2</sub>和I<sub>2</sub>→﹁I<sub>1</sub>;<img file="FDA0001161413340000043.GIF" wi="926" he="103" /><img file="FDA0001161413340000044.GIF" wi="908" he="103" />4.2.4、继续4.2.1~4.2.3步骤,当特征词频繁项集L<sub>i</sub>的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤4.2.5;4.2.5,继续4.1步骤,当特征词频繁项集集合中每个频繁项集L<sub>i</sub>都被取出一次,而且仅能取出一次,则转入第(5)步;(5)从特征词负项集集合termNIS中挖掘有效的完全加权特征词负关联规则,包括以下步骤:5.1、从特征词负项集集合termPIS取出特征词负项集N<sub>i</sub>,求出N<sub>i</sub>的所有真子集,构建N<sub>i</sub>的真子集集合,然后进行下列操作:5.2.1、从N<sub>i</sub>的真子集集合中任意取出两个真子集I<sub>1</sub>和I<sub>2</sub>,I<sub>1</sub>和I<sub>2</sub>没有交集即<img file="FDA0001161413340000045.GIF" wi="210" he="54" />并且它们的项目个数之和等于其原频繁项集的项目个数即I<sub>1</sub>∪I<sub>2</sub>=N<sub>i</sub>,则分别计算特征词负项集(I<sub>1</sub>∪I<sub>2</sub>)、I<sub>1</sub>和I<sub>2</sub>的项集权重维数比wdR(I<sub>1</sub>∪I<sub>2</sub>)、wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>);wdR(I<sub>1</sub>∪I<sub>2</sub>)、wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)的计算公式同步骤3.1;5.2.2、当I<sub>1</sub>和I<sub>2</sub>的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I<sub>1</sub>)≥minwdR,wdR(I<sub>2</sub>)≥minwdR,以及中文文本数据库记录总数n和上述步骤5.2.1的特征词负项集(I<sub>1</sub>∪I<sub>2</sub>)的项集权重维数比wdR(I<sub>1</sub>∪I<sub>2</sub>)的乘积大于I<sub>1</sub>和I<sub>2</sub>的项集权重维数比wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)的乘积时即n×wdR(I<sub>1</sub>∪I<sub>2</sub>)&gt;wdR(I<sub>1</sub>)×wdR(I<sub>2</sub>),进行如下操作:当(﹁I<sub>1</sub>,﹁I<sub>2</sub>)的支持度awsup(﹁I<sub>1</sub>,﹁I<sub>2</sub>)不小于支持度阈值minsup即awsup(﹁I<sub>1</sub>∪﹁I<sub>2</sub>)≥minsup,并且特征词负项集(﹁I<sub>1</sub>,﹁I<sub>2</sub>)的兴趣度awAPInt(﹁I<sub>1</sub>,﹁I<sub>2</sub>)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I<sub>1</sub>,﹁I<sub>2</sub>)≥minNIInt,﹁I<sub>1</sub>→﹁I<sub>2</sub>的概率比awARPR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)以及﹁I<sub>2</sub>→﹁I<sub>1</sub>的概率比awARPR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)都不小于置信度阈值minconf即awARPR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)≥minconf,awARPR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)≥minconf,则挖掘出特征词负关联规则﹁I<sub>1</sub>→﹁I<sub>2</sub>和﹁I<sub>2</sub>→﹁I<sub>1</sub>;awARPR(﹁I<sub>1</sub>→﹁I<sub>2</sub>)和awARPR(﹁I<sub>2</sub>→﹁I<sub>1</sub>)的计算公式同步骤4.2.2.2;5.2.3、当I<sub>1</sub>和I<sub>2</sub>的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I<sub>1</sub>)≥minwdR,wdR(I<sub>2</sub>)≥minwdR,以及中文文本数据库记录总数n和上述步骤5.2.1的特征词负项集(I<sub>1</sub>∪I<sub>2</sub>)的项集权重维数比wdR(I<sub>1</sub>∪I<sub>2</sub>)的乘积小于I<sub>1</sub>和I<sub>2</sub>的项集权重维数比wdR(I<sub>1</sub>)和wdR(I<sub>2</sub>)的乘积即n×wdR(I<sub>1</sub>∪I<sub>2</sub>)&lt;wdR(I<sub>1</sub>)×wdR(I<sub>2</sub>)时,进行如下操作:5.2.3.1当特征词负项集(I<sub>1</sub>∪﹁I<sub>2</sub>)的支持度不小于支持度阈值minsup即awsup(I<sub>1</sub>∪﹁I<sub>2</sub>)≥minsup,并且(I<sub>1</sub>∪﹁I<sub>2</sub>)的兴趣度awAPInt(I<sub>1</sub>,﹁I<sub>2</sub>)不小于最小负项集兴趣度阈值minNIInt即awAPInt(I<sub>1</sub>,﹁I<sub>2</sub>)≥minNIInt,I<sub>1</sub>→﹁I<sub>2</sub>的概率比awARPR(I<sub>1</sub>→﹁I<sub>2</sub>)以及﹁I<sub>2</sub>→I<sub>1</sub>的概率比awARPR(﹁I<sub>2</sub>→I<sub>1</sub>)都不小于置信度阈值minconf即awARPR(I<sub>1</sub>→﹁I<sub>2</sub>)≥minconf,awARPR(﹁I<sub>2</sub>→I<sub>1</sub>)≥minconf,则挖掘出特征词负关联规则I<sub>1</sub>→﹁I<sub>2</sub>和﹁I<sub>2</sub>→I<sub>1</sub>;5.2.3.2当特征词负项集(﹁I<sub>1</sub>∪I<sub>2</sub>)的支持度不小于支持度阈值minsup即awsup(﹁I<sub>1</sub>∪I<sub>2</sub>)≥minsup,并且(﹁I<sub>1</sub>∪I<sub>2</sub>)的兴趣度awAPInt(﹁I<sub>1</sub>,I<sub>2</sub>)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I<sub>1</sub>,I<sub>2</sub>)≥minNIInt,﹁I<sub>1</sub>→I<sub>2</sub>的概率比awARPR(﹁I<sub>1</sub>→I<sub>2</sub>)以及I<sub>2</sub>→﹁I<sub>1</sub>的概率比awARPR(I<sub>2</sub>→﹁I<sub>1</sub>)都不小于置信度阈值minconf即awARPR(﹁I<sub>1</sub>→I<sub>2</sub>)≥minconf,awARPR(I<sub>2</sub>→﹁I<sub>1</sub>)≥minconf,则挖掘出特征词负关联规则﹁I<sub>1</sub>→I<sub>2</sub>和I<sub>2</sub>→﹁I<sub>1</sub>;5.2.4、继续5.2.1~5.2.3步骤,当特征词N<sub>i</sub>的真子集集合中每个真子集都当且仅当被取出一次,则转入步骤5.2.5;5.2.5,继续5.1步骤,当特征词负项集集合中每个负项集N<sub>i</sub>都当且仅当被取出一次,则特征词正负关联规则模式挖掘结束;至此,完全加权正负关联规则挖掘结束。
地址 530003 广西壮族自治区南宁市明秀西路100号