发明名称 文档聚类系统和方法
摘要 提供一种文档聚类系统和方法。该方法包括:用于存储文档的文档DB、文档特征编写单元、文档检索单元、聚类处理单元以及聚类DB。文档DB存储文档。文档特征编写单元提取在文档数据库中存储的文档的属性信息,以及基于属性信息编写关于各文档的索引。文档检索单元使用索引来检索包括用户输入的查询的文档。聚类处理单元包括代表向量计算器,用于计算检索到的文档的特征向量和代表向量,和相似度计算器,用于使用特征向量和代表向量来计算文档间的相似度。聚类数据库存储由聚类处理单元聚类的文档。
申请公布号 CN101055585B 申请公布日期 2013.01.02
申请号 CN200710085458.1 申请日期 2007.03.05
申请人 LG电子株式会社 发明人 车完奎;金晶中;安汉峻
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 隆天国际知识产权代理有限公司 72003 代理人 张浴月
主权项 一种文档聚类系统,包括:文档存储单元,用于存储文档;文档特征生成单元,用于提取在所述文档存储单元中存储的文档的属性信息,并且基于所述属性信息生成关于各文档的索引;文档特征数据库,用于存储所述各文档的索引;文档检索单元,利用所述索引来检索包含用户输入的查询的文档;聚类处理单元,包括用于计算检索到的文档的特征向量和代表向量的代表向量计算器,以及使用所述特征向量和所述代表向量计算文档之间相似度的相似度计算器;聚类数据库,存储由聚类处理单元聚类的文档;以及输出单元,将作为检索结果所获得的文档列表提供给客户端,所述输出单元的文档选择部分允许用户单独选择所检索到的文档,所述输出单元的聚类请求部分基于所选文档的相似度来执行文档的聚类处理,通过所述客户端的聚类数量输入部分输入文档聚类的数量,以及通过所述客户端的文档数量输入部分输入每个聚类的文档数量。
地址 韩国首尔