主权项 |
一种从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据;其中,所述步骤S1还包括根据样例页面中的帖子记录的组织结构特征,判断样例页面的帖子记录的组织结构类型的步骤;所述步骤S1中根据样例页面中的帖子记录的组织结构特征生成抽取模板的步骤包括:根据样例页面中的帖子记录的组织结构类型,生成与所述样例页面的帖子记录的组织结构类型相对应类型的抽取模板;所述组织结构类型包括:第一类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都相同,但不是<div>标签;每个帖子节点在标签树中的深度相同;帖子节点的子节点个数相同,且超过3个;第二类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都是<div>;帖子节点都具有非空的“class”属性值;帖子节点在标签树中的深度相同;帖子节点的有效子节点个数相同,且超过3个;所述有效子节点是指这样的子节点:该子节点及其子树承载的文本不为空,且该子节点具有非空的“class”属性值;以及所述 |