基于中心法的自适应文本聚类算法,申请号CN201410014995.7-传众专利搜索

发明名称	基于中心法的自适应文本聚类算法
摘要	基于中心法的自适应文本聚类算法是一种迭代分割聚类算法，迭代之前，算法首先初始化相关参数，然后随机将数据集分割为大小相同的一组聚簇，并计算每个聚簇的CFC向量；在此之后，算法进入迭代过程，在进入迭代过程之后，每次迭代过程包括下列主要步骤：根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本，以得到新的一组聚簇；在重新组织每个文本之后，重新计算每个非空聚簇的CFC向量；判定算法是否满足终止条件，若满足则终止，否则继续进行迭代过程；具有如下主要优点：（1）方法简单，易于实现；（2）具有自适应性。
申请公布号	CN103699695B	申请公布日期	2017.02.01
申请号	CN201410014995.7	申请日期	2014.01.14
申请人	吉林大学	发明人	欧阳继红;周晓堂;李熙铭;马超;王旭
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	长春市四环专利事务所(普通合伙) 22103	代理人	郭耀辉
主权项	基于中心法的自适应文本聚类方法，其特征在于，包括如下步骤：步骤1：初始化方法的相关参数首先，初始化聚簇的“类—特征—中心：Class‑Feature‑Centroid”即CFC向量的计算参数：b和log函数的底数；其次，设置方法的运行控制参数，包括：随机聚类过程时的初始聚簇大小参数Im，重启频率参数Fm和重启范围Rm；最后，设置方法终止条件参数：最大迭代次数和收敛准确率；步骤2：分割数据集随机将数据集分割为大小为Im的一组聚簇，并计算每个聚簇的CFC向量；步骤3：重组数据集根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本，以得到新的一组聚簇，重组过程包含两种处理情况：(1)非重启迭代重组：将每个文本分配到和其最相似的CFC向量所属的聚簇中；(2)重启迭代重组：将每个文本分配到和其第2到第Rm相似区间中的某一CFC向量所属的聚簇中；步骤4：重新计算各聚簇的CFC向量在将所有文本重组之后，重新计算每个非空聚簇的CFC向量；步骤5：判定方法是否终止方法有两个终止条件：最大迭代次数和收敛准确率；如果两个终止条件有一个满足，则方法终止；否则，方法继续进行，转到步骤3。
地址	130012 吉林省长春市前进大街2699号