发明名称 基于主成分聚类的文本信息挖掘方法及装置
摘要 本发明涉及文本信息处理领域,特别涉及一种基于主成分聚类的文本信息挖掘方法及装置,用以解决现有技术处理得到的信息有效性不高的问题。本发明实施例中,通过统计词语的之间的共现次数,以此得到每个词语与其它词语的链接总数,然后基于该链接总数来确定中心特征较强的词语,由此构建观测数据矩阵,在此基础上采用主成分聚类的方式对该矩阵进行处理,并将得到的聚类结果与对应的词语以及词频匹配,最终获得文本信息挖掘的结果。
申请公布号 CN104462607A 申请公布日期 2015.03.25
申请号 CN201410857134.5 申请日期 2014.12.30
申请人 余宇新 发明人 余宇新
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于主成分聚类的文本信息挖掘方法,其特征在于,包括以下步骤:由语句集中提取词语,并统计所述词语的词频;提取词频最大的n个词语,并统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数;在所述n个词语中提取链接总数最多的q个词语,生成观测数据矩阵,其中所述链接总数为每个词语与其余词语的共现次数的总数,所述观测数据矩阵的矩阵元素为所述q个词语对应的共现次数,其中q≤n;对观测数据矩阵进行主成分聚类分析,获得聚类结果;将所述聚类结果与对应的词语以及词频匹配,获得文本信息挖掘的结果。
地址 200433 上海市杨浦区国定路777号