一种自动抽取论坛数据的方法,申请号CN201310072098.7-传众专利搜索

发明名称	一种自动抽取论坛数据的方法
摘要	本发明公开了一种从论坛帖子中抽取数据的方法，按照如下步骤：a，根据论坛网页结构的特点，用网页结构聚类的方法，识别网页帖子页面；b，根据网页帖子的簇的相似子树的数量变化，计算该簇内所有同路径下的相似子树的熵，来定位条目信息；c，构建帖子页面可视字串的特征集，利用统计特征对特征集进行划分，然后利用先验知识对具体的可视字串代表的含义，并生成模板；d，利用模板解析网页，完成最终的提取。
申请公布号	CN103136358B	申请公布日期	2016.04.13
申请号	CN201310072098.7	申请日期	2013.03.07
申请人	宁波成电泰克电子信息技术发展有限公司	发明人	郭成林;彭春林;刘红玉;高云棋;刘丹
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	成都宏顺专利代理事务所(普通合伙) 51227	代理人	周永宏
主权项	一种自动抽取论坛数据的方法，包括下述步骤：a、识别主贴页面：对给定url的网页进行抓取并根据网页结构进行聚类，找出帖子页面；b、条目定位：计算与帖子页面所在的类同一路径下的相似子树的个数的信息熵，其中熵的最大值的路径为条目在标签树中的路径；c、识别内容并生成抽取模版：根据条目可视字串建立四维特征向量F1,F2,F3,F4，其中F1：是否为数字，F2：长度，F3：是否为时间格式，F4：是否为超链接文字，再根据特征向量划分数据集，最后区分可见词代表的意义并生成抽取模板；d、利用抽取模板抽取论坛数据；所述步骤a包括以下步骤：a1、抓取网页；a2、清洗网页并建立标签树：去除<script></script>、<style></style>和<！‑‑‑‑>标签的内容并建立标签树，以html作为标签树的根；a3、从根节点开始对标签树层次遍历并赋予权值：初始权值为1，分支节点权值value＝1+log(layer)，其中layer为节点所在的层数；a4、计算相似度：将在步骤a3被赋予权值的网页的标签树转换为key：value格式的字典，其中，key为树的根到该节点的路径，value为所述权值，对于重复出现的路径key使用自加标号加以区分；a5、确定最大相似度：网页m与对其具有最大相似度的网页n的相似度为Sim(m，n)；a6、判断相似度Sim(m，n)与设定阈值的关系，若相似度Sim(m，n)不小于设定阈值则将网页m聚合到网页n的簇中，若相似度Sim(m，n)小于设定阈值则新建簇并将网页m放入其中。
地址	315040 浙江省宁波市高新区扬帆路999弄5号7-4室