发明名称 一种基于标签聚类的博客层次分类树构建方法
摘要 本发明涉及一种基于标签聚类的博客层次分类树构建方法。所述方法包括步骤:第一、初始化并输入预先定义的博客层次分类树和由标签关系数据构造的邻接矩阵;第二、调用标签聚类算法对标签关系数据进行聚类,由此生成数个标签簇;第三、运用主题泛化算法从各个标签簇中提取一个或多个关键标签词作为其主题;第四步:在标签簇还能进一步聚类时,递归调用第二步和第三步;第五步:每一次递归调用结束后都在博客层次分类树中构建新的层次以及增加新的主题节点;第六、递归终止条件完全满足后,输出构造好的博客层次分类树。本方法是针对博客数据的检索、挖掘和浏览等问题提出的,能够快速组织海量博客数据的主题层次关系,并具有较高的效率和准确率。
申请公布号 CN101430708A 申请公布日期 2009.05.13
申请号 CN200810217630.9 申请日期 2008.11.21
申请人 哈尔滨工业大学深圳研究生院 发明人 叶允明;王冰伟;何金艳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市科吉华烽知识产权事务所 代理人 胡吉科
主权项 1. 一种基于标签聚类的博客层次分类树构建方法,其特征在于:所述基于标签聚类的博客层次分类树构建方法包括以下步骤:A:初始化并输入预先定义的博客层次分类树和由标签关系数据构造的邻接矩阵;B:调用标签聚类算法对标签关系数据进行聚类,由此生成数个标签簇;C:运用主题泛化算法提取一个或多个关键标签词作为每个标签簇的主题;D:当标签簇还能进一步聚类时,重复步骤B和步骤C;E:每一次递归调用后在博客层次分类树中构建新的层次以及增加新的主题节点;F:递归调用条件满足后,输出构造好的博客层次分类树。
地址 518055广东省深圳市南山区西丽深圳大学城哈工大校区