发明名称 |
一种自动抽取论坛数据的方法 |
摘要 |
本发明公开了一种从论坛帖子中抽取数据的方法,按照如下步骤:a根据论坛网页结构的特点,用网页结构聚类的方法,识别网页帖子页面;b根据网页帖子的簇的相似子树的数量变化,计算该簇内所有同路径下的相似子树的熵,来定位条目信息;c构建帖子页面可视字串的特征集,利用统计特征对特征集进行划分,然后利用先验知识对具体的可视字串代表的含义,并生成模板;d利用模板解析网页,完成最终的提取。 |
申请公布号 |
CN103136358A |
申请公布日期 |
2013.06.05 |
申请号 |
CN201310072098.7 |
申请日期 |
2013.03.07 |
申请人 |
宁波成电泰克电子信息技术发展有限公司 |
发明人 |
郭成林;彭春林;刘红玉;高云棋;刘丹 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
成都宏顺专利代理事务所(普通合伙) 51227 |
代理人 |
周永宏 |
主权项 |
一种自动抽取论坛数据的方法,包括下述步骤:a、识别主贴页面:对给定url的网页的进行抓取并根据网页结构进行聚类,找出帖子页面;b、条目定位:计算与帖子页面所在的类同一路径下的相似子树的个数的信息熵,其中熵的最大值的路径为条目在标签树中的路径;c、识别内容并生成抽取模版:根据条目可视字串建立特征向量,再根据特征向量划分数据集,最后区分可见词代表的意义并生成抽取模板;d、利用抽取模板抽取论坛数据。 |
地址 |
315040 浙江省宁波市高新区扬帆路999弄5号7-4室 |