主权项 |
一种面向不确定数据的闭项集挖掘方法,其特征在于包括以下步骤:步骤一、挖掘闭项集;首先,将不确定数据作为确定数据;数据集D扫描决定1‑频繁项<img file="FDA0000701768010000011.GIF" wi="197" he="74" />建立垂直数据集VD;VD包括tid列表g(i),<img file="FDA0000701768010000012.GIF" wi="221" he="72" />假设<img file="FDA0000701768010000013.GIF" wi="794" he="75" /><img file="FDA0000701768010000014.GIF" wi="48" he="51" />和<img file="FDA0000701768010000015.GIF" wi="508" he="74" />记录<img file="FDA0000701768010000016.GIF" wi="131" he="71" />所包含的项集,如果有的话,这个单项会出现在数据集中的所有事务中;通过利用POST_SET中的项拓展CLOSED_SET以产生所有可能生成子,非频繁且不保序的生成子是被当作无效的;记录这些属于POST_SET的项,如果曾经是包含在上述生成子之中的,在随后的递归调用过程是不再被考虑的,只有有效的生成子可以被拓展;每一个生成子new_gen←CLOSED_SET∪i是严格的依据保序性被拓展的,通过使用所有属于POST_SET的项<img file="FDA0000701768010000018.GIF" wi="180" he="74" />拓展,记录POST_SET中所有的不属于生成子和用于下次递归调用的项j(i<j);产生一个新的闭合集CLOSED_SET<sub>new</sub>←c(new_gen);从新的闭项集中,通过递归调用DCI_Closed()来建立新的生成子和相应的闭项集;最后,为了能够按词典序的顺序访问,必须按照字典序的顺序从POST_SET中提取项;使用DCI算法挖掘出所有的闭项集,Cset={{a b},{a b c}};步骤二、概率频繁闭项集过滤;根据确定数据挖掘的频繁闭项集及其子集和不确定数据的闭项集等价,计算由步骤一得到的闭项集及其子集的频繁闭概率值,过滤概率非频繁项集;基于边界的Chernoff‑Hoeffding剪枝:给定项集X,不确定数据集UD,X的预期支持度μ,最小的支持度阈值min_sup,频繁闭概率的阈值pfct,项集X是概率非频繁的条件是:<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open='{' close=''><mtable><mtr><mtd><msup><mi>e</mi><mrow><mo>-</mo><mn>2</mn><msup><mi>n</mi><mn>2</mn></msup><msup><mi>δ</mi><mn>2</mn></msup></mrow></msup><mo><</mo><mi>pfct</mi><mo>,</mo></mtd><mtd><mi>δ</mi><mo>></mo><mi>μ</mi></mtd></mtr><mtr><mtd><msup><mi>e</mi><mrow><mo>-</mo><mn>2</mn><mi>n</mi><msup><mi>δ</mi><mn>2</mn></msup></mrow></msup><mo><</mo><mi>pfct</mi><mo>,</mo></mtd><mtd><mi>δ</mi><mo><</mo><mi>μ</mi></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000701768010000017.GIF" wi="648" he="183" /></maths>δ=(min_sup‑μ‑1)/n,n是UD中事务的数量;超集剪枝:给定长度为|X|的项集,不确定数据集UD和X的长度为|X|+1的超集X+e<sub>i</sub>;按照字母顺序,至少小于X中的一个项,即X不是X+e<sub>i</sub>的前缀,并且X.sup=(X+e<sub>i</sub>).sup能够得到如下的两个结果:1)X的频繁概率是0,X必然不是概率频繁项集;2)基于字母顺序,所有以X为前缀的超集必然不是概率频繁项集;以{a}为前缀基于深度优先搜索的超集剪枝方法,能够避免生长{ac,fcp:0},{bc,fcp:0};子集剪枝:给定不确定数据集UD,项集X,X是X‑e<sub>i</sub>的超集,e<sub>i</sub>是X的最后一个项,如果X.sup=(X‑e<sub>i</sub>).sup,得到以下两个结果:1)X‑e<sub>i</sub>的频繁概率是0,必然不是概率频繁项集;2)含有X‑e<sub>i</sub>作为前缀的项集,如果长度相同,则能够判断必然不是频繁的概率项集,这样的项集超集也必然不是频繁的概率项集。 |