发明名称 一种从论坛帖子列表页面中抽取帖子元数据的方法
摘要 本发明公开了一种从论坛帖子列表页面中抽取帖子元数据的方法,其包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据。本发明能够满足处理大量的大规模论坛数据的实际需求,且抽取精度高、抽取速度快、维护代价小。
申请公布号 CN101661468B 申请公布日期 2011.08.31
申请号 CN200810119238.0 申请日期 2008.08.29
申请人 中国科学院计算技术研究所 发明人 郭岩;丁国栋;曹冬林;王宇;张刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 梁挥;王金宝
主权项 一种从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据;其中,所述步骤S1还包括根据样例页面中的帖子记录的组织结构特征,判断样例页面的帖子记录的组织结构类型的步骤;所述步骤S1中根据样例页面中的帖子记录的组织结构特征生成抽取模板的步骤包括:根据样例页面中的帖子记录的组织结构类型,生成与所述样例页面的帖子记录的组织结构类型相对应类型的抽取模板;所述组织结构类型包括:第一类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都相同,但不是<div>标签;每个帖子节点在标签树中的深度相同;帖子节点的子节点个数相同,且超过3个;第二类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都是<div>;帖子节点都具有非空的“class”属性值;帖子节点在标签树中的深度相同;帖子节点的有效子节点个数相同,且超过3个;所述有效子节点是指这样的子节点:该子节点及其子树承载的文本不为空,且该子节点具有非空的“class”属性值;以及所述
地址 100080 北京市海淀区中关村科学院南路6号