主权项 |
一种自动抽取论坛数据的方法,包括下述步骤:a、识别主贴页面:对给定url的网页进行抓取并根据网页结构进行聚类,找出帖子页面;b、条目定位:计算与帖子页面所在的类同一路径下的相似子树的个数的信息熵,其中熵的最大值的路径为条目在标签树中的路径;c、识别内容并生成抽取模版:根据条目可视字串建立四维特征向量F1,F2,F3,F4,其中F1:是否为数字,F2:长度,F3:是否为时间格式,F4:是否为超链接文字,再根据特征向量划分数据集,最后区分可见词代表的意义并生成抽取模板;d、利用抽取模板抽取论坛数据;所述步骤a包括以下步骤:a1、抓取网页;a2、清洗网页并建立标签树:去除<script></script>、<style></style>和<!‑‑‑‑>标签的内容并建立标签树,以html作为标签树的根;a3、从根节点开始对标签树层次遍历并赋予权值:初始权值为1,分支节点权值value=1+log(layer),其中layer为节点所在的层数;a4、计算相似度:将在步骤a3被赋予权值的网页的标签树转换为key:value格式的字典,其中,key为树的根到该节点的路径,value为所述权值,对于重复出现的路径key使用自加标号加以区分;a5、确定最大相似度:网页m与对其具有最大相似度的网页n的相似度为Sim(m,n);a6、判断相似度Sim(m,n)与设定阈值的关系,若相似度Sim(m,n)不小于设定阈值则将网页m聚合到网页n的簇中,若相似度Sim(m,n)小于设定阈值则新建簇并将网页m放入其中。 |