主权项 |
一种基于主成分聚类的文本信息挖掘方法,其特征在于,包括以下步骤:由语句集中提取词语,并统计所述词语的词频;提取词频最大的n个词语,并统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数;在所述n个词语中提取链接总数最多的q个词语,生成观测数据矩阵,其中所述链接总数为每个词语与其余词语的共现次数的总数,所述观测数据矩阵的矩阵元素为所述q个词语对应的共现次数,其中q≤n;对观测数据矩阵进行主成分聚类分析,获得聚类结果;将所述聚类结果与对应的词语以及词频匹配,获得文本信息挖掘的结果。 |