基于频繁关联标签序列的XML结构相似度度量方法,申请号CN201110398187.1-传众专利搜索

发明名称	基于频繁关联标签序列的XML结构相似度度量方法
摘要	本发明公开了一种基于频繁关联标签序列的XML结构相似度度量方法，解析XML文档集C得到标签序列数据库TSDB；从TSDB中挖掘所有的频繁标签序列集合FTS；从中选出极大频繁标签序列集MFTS；转化得到新的数据库TSDB’；从中挖掘闭频繁关联标签序列集合；将TSDB’中的任意一个文档表示为其所包含的闭频繁关联标签序列集合，从而计算文档集合C中任意两个文档之间的结构相似度。本发明可以提高聚类结果的准确率。
申请公布号	CN102521325A	申请公布日期	2012.06.27
申请号	CN201110398187.1	申请日期	2011.12.02
申请人	西北工业大学	发明人	张利军;李战怀;陈群;李霞
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	西北工业大学专利中心 61204	代理人	顾潮琪
主权项	1.一种基于频繁关联标签序列的XML结构相似度度量方法，其特征在于包括下述步骤：1)预处理：解析XML文档集C中所有的XML文档，将每个XML文档的结构建模为一棵有序标签树，树中的每个节点表示文档中的一个元素，节点使用元素名来标记，称作标签；从所有文档中抽取的所有标签构成的集合称为标签集；将XML文档的结构都表示为标签序列的集合，得到标签序列数据库TSDB；所述的标签序列是指由标签集中的多个标签构成的有序列表，标签的顺序为XML文档对应的标签树中从根节点到叶子节点的路径所经过的顺序，标签序列α可形式化地表示为：<a<sub>1</sub>，a<sub>2</sub>，L，a<sub>n</sub>>，其中a<sub>i</sub>为标签集中的一个标签，其中所包含的标签的个数称为标签序列的长度，长度为l的标签序列称为l-标签序列；2)挖掘频繁标签序列：从TSDB中使用频繁序列模式挖掘算法挖掘所有的频繁标签序列集合FTS；所述的频繁标签序列是指对于给定的最小支持度阈值δ，如果标签序列α在TSDB中的支持度大于等于δ，则称α在TSDB中是频繁标签序列，0＜δ≤1；所述的标签序列α在TSDB中的支持度是指在TSDB中支持α的文档的数目与TSDB中所有文档数的比率，记为support(α)；所述的支持α的文档是指在该文档中存在一个标签序列β，使得β包含α；所述的标签序列β：<b<sub>1</sub>，b<sub>2</sub>，L，b<sub>n</sub>>包含标签序列α：<a<sub>1</sub>，a<sub>2</sub>，L，a<sub>m</sub>>是指存在整数序列i<sub>1</sub>＜i<sub>2</sub>＜L＜i<sub>m</sub>，使得<img file="FDA0000115665120000011.GIF" wi="153" he="62" /><img file="FDA0000115665120000012.GIF" wi="164" he="62" />L，<img file="FDA0000115665120000013.GIF" wi="187" he="62" />记作<img file="FDA0000115665120000014.GIF" wi="151" he="47" />也称α是β的子标签序列，或β是α的超标签序列；3)极大化：从FTS中选出极大频繁标签序列，得到极大频繁标签序列集MFTS；所述的极大频繁标签序列是指对于标签序列α，在TSDB中不存在它的超标签序列也是频繁的；4)转换数据库：对于TSDB中的每一个文档中的每一个标签序列α，如果MFTS中存在它的一个子标签序列，则将α用该子标签序列代替，如果不存在，则删除α，全部处理完后即可得到新的数据库TSDB’；5)挖掘闭频繁关联标签序列：从TSDB’中使用闭频繁项集挖掘算法挖掘所有的闭频繁关联标签序列构成的集合FATS；所述的关联标签序列是指标签序列的集合，对于该集合中的任意标签序列α，集合中都不存在另外一个标签序列β，使得β包含α或者α包含β；所述的频繁关联标签序列是指对于给定的最小支持度阈值δ，如果关联标签序列γ在TSDB’中的支持度大于等于δ，则称关联标签序列γ在TSDB’中是频繁关联标签序列；0＜δ≤1；所述的关联标签序列γ在TSDB’中的支持度是指TSDB’中支持γ的文档的数目与TSDB’中所有文档数的比率，记为support(γ)；所述的支持关联标签序列γ的文档是指对于γ中的任意标签序列α，该文档支持α；所述的闭频繁关联标签序列γ是指γ在TSDB’中是频繁的，且不存在它的真超集η，使得它们在TSDB’中支持度相同；6)文档表示：对于TSDB’中的任意一个文档d<sub>i</sub>，将其表示为其所包含的闭频繁关联标签序列的集合，即d<sub>i</sub>＝{fats\|fats∈FATS∧d<sub>i</sub> supports fats}；7)结构相似度计算：利用公式<maths num="0001"><![CDATA[<math><mrow><mi>sim</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>,</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>\|</mo><msub><mi>d</mi><mi>i</mi></msub><mo>∩</mo><msub><mi>d</mi><mi>j</mi></msub><mo>\|</mo><mo>+</mo><mo>\|</mo><msubsup><mi>p</mi><mi>j</mi><mi>i</mi></msubsup><mo>\|</mo><mo>+</mo><mo>\|</mo><msubsup><mi>p</mi><mi>i</mi><mi>j</mi></msubsup><mo>\|</mo></mrow><mrow><mo>\|</mo><msub><mi>d</mi><mi>i</mi></msub><mo>∪</mo><msub><mi>d</mi><mi>j</mi></msub><mo>\|</mo></mrow></mfrac></mrow></math>]]></maths>计算文档集合C中任意两个文档d<sub>i</sub>和d<sub>j</sub>之间的结构相似度sim(d<sub>i</sub>，d<sub>j</sub>)，其中：<img file="FDA0000115665120000022.GIF" wi="1285" he="67" />
地址	710072 陕西省西安市友谊西路127号