发明名称 基于语义扩展的WEB页面归类方法和系统
摘要 本发明提供一种基于语义扩展的WEB页面归类方法,包括:提取WEB页面的关键词;将WEB页面的关键词进行语义扩展,得到关键词组合;根据WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将关键词组合与所述相似类别树中每个节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的节点中,更新所述相似类别树。对应地本发明还提供一种基于语义扩展的WEB页面归类系统。本发明能有效提高WEB页面信息归类的正确率和灵活性。
申请公布号 CN103294820A 申请公布日期 2013.09.11
申请号 CN201310236697.8 申请日期 2013.06.14
申请人 广东电网公司电力科学研究院 发明人 徐立新;颜小林;李军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 王茹;曾旻辉
主权项 一种基于语义扩展的WEB页面归类方法,其特征在于,包括如下步骤:提取WEB页面的关键词;将所述WEB页面的关键词进行语义扩展,得到关键词组合;根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
地址 510080 广东省广州市越秀区东风东路水均岗8号