发明名称 煤矿搜索引擎中检索结果聚类系统
摘要 本发明提出了一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户。采用该系统后,可有效提高文本集的聚类速度,还可避免在选择相似度计算方法时的主观随意性。在数据对象合并成簇时,通过计算合并时产生的互信息损失来度量数据对象之间的相似关系,并在此基础上,提供检索结果文档的高质量分组。
申请公布号 CN103886072B 申请公布日期 2016.08.24
申请号 CN201410110171.X 申请日期 2014.03.24
申请人 河南理工大学 发明人 刘永利;赵珊;王建芳;雒芬;赵建贵
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:(1)初始化:将检索结果文档集合表示成<img file="FDA0001009052930000011.GIF" wi="560" he="294" />其中,A表示文档集合对应的文档‑特征词矩阵,m为文档数目,n代表特征词数目,w<sub>ij</sub>表示第j个特征词在第i个文档中的权重,i和j为自然数,1≤i≤m,1≤j≤n;(2)降维:将矩阵A按照奇异值分解方法分解为3个矩阵的乘积,即:A=USV<sup>T</sup>,其中,U和V为正交矩阵,矩阵U为m×m矩阵,矩阵V为n×n矩阵,S为m×n奇异对角阵,是原矩阵A的消减矩阵,S对角元素为A的奇异值,将S对角元素按从大到小顺序排列,取前k个最大的值,分别得到U<sub>k</sub>、S<sub>k</sub>和V<sub>k</sub>;U<sub>k</sub>和V<sub>k</sub>分别为U和V的前k列构建的矩阵,S<sub>k</sub>为取S对角元素前k个最大的值构建的矩阵,其中k为自然数,1≤k≤m且1≤k≤n;<img file="FDA0001009052930000016.GIF" wi="285" he="63" />其中A<sub>k</sub>为计算得到的矩阵A的k秩近似矩阵;(3)聚类:矩阵U<sub>k</sub>的行向量即为文档的特征向量,<img file="FDA0001009052930000012.GIF" wi="558" he="295" />其中u<sub>xy</sub>表示矩阵U<sub>k</sub>的元素,x和y为自然数,1≤x≤m,1≤y≤k,对矩阵U<sub>k</sub>采用K‑Means聚类算法进行聚类,具体聚类步骤如下:&lt;1&gt;从m个文档中随机选取Z个文档作为簇的质心,Z为簇的数目,Z个簇分别表示为c<sub>1</sub>,c<sub>2</sub>,...,c<sub>Z</sub>,Z个质心表示为p<sub>1</sub>,p<sub>2</sub>,...,p<sub>Z</sub>,质心p<sub>t</sub>的向量形式可表示为<img file="FDA0001009052930000013.GIF" wi="437" he="62" />p<sub>ty</sub>表示该向量的元素,1≤t≤Z;&lt;2&gt;对矩阵U<sub>k</sub>中的每个文档向量,分别计算其到上述Z个质心的距离,并将其划分到距离最近的质心所在的簇,距离的计算方法为<img file="FDA0001009052930000014.GIF" wi="571" he="279" />其中u<sub>x</sub>表示矩阵U<sub>k</sub>中第x行表示的文档;&lt;3&gt;重新计算各个簇的质心,新的质心可表示为p'<sub>1</sub>,p'<sub>2</sub>,...,p'<sub>Z</sub>,质心p'<sub>t</sub>的向量形式可表示为<img file="FDA0001009052930000015.GIF" wi="505" he="63" />p'<sub>ty</sub>表示该向量的元素;&lt;4&gt;迭代步骤&lt;2&gt;和&lt;3&gt;,直至新质心与原质心相等或距离之和<img file="FDA0001009052930000021.GIF" wi="702" he="279" />小于指定阈值θ,θ为实数。
地址 454000 河南省焦作市高新区世纪大道2001号河南理工大学