发明名称 |
基于锚标签和时间标记的计算机会议实时信息抽取方法 |
摘要 |
本发明涉及一种网页信息抽取方法,特别是一种基于锚标签和时间标记相结合的计算机会议实时信息抽取方法。本发明将CCF推荐的A类会议的所有官网链接作为爬虫的种子链接,爬取相关链接和抽取会议的关键信息。不同的会议网站公布会议召开时间等信息的方式不同(特指编写HTML代码的标记不同),但是本发明能够通过锚标记和时间标记相结合的方法,将不同会议网站发布的会议信息统一提取出来,对每个会议页面中最感兴趣的部分信息进行抽取,例如会议召开时间、地点、相关页面链接等用户感兴趣的信息。 |
申请公布号 |
CN105843808A |
申请公布日期 |
2016.08.10 |
申请号 |
CN201510016038.2 |
申请日期 |
2015.01.13 |
申请人 |
丰小月 |
发明人 |
丰小月;王冬晖;管仁初;梁艳春 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
使用时间标记和锚标记的方式进行页面链接和关键信息的提取。 |
地址 |
130012 吉林省长春市前进大街2699号计算机学院 |