发明名称 大规模文本数据的外部聚类方法及系统
摘要 一种应用于信息技术领域中的一种大规模文本数据的外部聚类方法及系统,设计的聚类系统,包括一候选分析器、关系生成器、关系选取和聚类部件,每个样本点都作为一个簇,通过检索技术为每个样本挑选出候选的具有联系的候选点集合,利用关系生成器计算样本与候选关系样本间的关系,按递增/递减顺序输出到外部存储空间;方法的主要步骤包括:对输入文本集的预处理,生成文本集的倒排索引和特征向量;采用检索技术检索每一文档的候选关系集合;利用关系计算方法对有候选关系的文档进行关系计算;排序输出大于一定阈值的计算结果;聚类算法再依照排序结果,反复迭代合并具有第一直接关系的文本对,最终达到对文本集合的聚类输出。该装置构思新颖科学、聚类过程占用空间小、容量大的外部存储器,对处理过程进行分化处理。
申请公布号 CN101308496A 申请公布日期 2008.11.19
申请号 CN200810012141.X 申请日期 2008.07.04
申请人 沈阳格微软件有限责任公司 发明人 季铎;蔡东风;张桂平;尹宝生;苗雪雷;周俏丽;白羽
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 沈阳世纪蓝海专利事务所 代理人 谭琦
主权项 1、一种大规模文本数据的外部聚类方法及系统,其特征在于:方法的主要步骤包括:对输入文本集的预处理,生成文本集的倒排索引和特征向量;采用检索技术检索每一文档的候选关系集合;利用关系计算方法对有候选关系的文档进行关系计算;排序输出大于一定阈值的计算结果;聚类算法再依照排序结果,反复迭代合并具有第一直接关系的文本对,最终达到对文本集合的聚类输出。
地址 110034辽宁省沈阳市黄河北大街52号202信箱