发明名称 |
一种新闻关键信息的提取方法及系统 |
摘要 |
本发明公开了一种新闻关键信息的提取方法及系统,该系统首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文;根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源,最后可根据已获得新闻的标题、时间、来源和正文,将获得的内容以换行符为分隔符,以此为顺序写入本地文件中。具有较高的准确率,且不依赖特定的网页模板,具有较强的实用性和鲁棒性;同时,本发明方法复杂度低,提取的结果更为精确,消耗的资源更少。 |
申请公布号 |
CN106021392A |
申请公布日期 |
2016.10.12 |
申请号 |
CN201610313098.5 |
申请日期 |
2016.05.12 |
申请人 |
中国互联网络信息中心 |
发明人 |
李晓东;向菁菁;耿光刚 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
冯艺东 |
主权项 |
一种新闻关键信息的提取方法,包括以下步骤:1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本;2)从所述文本中获取<title></title>标签对中的内容,逐行匹配获得新闻标题;3)采用常规的时间模板,并以对应的顺序为优先级,匹配每一行所包含的时间,将得出的时间timeString和所在行的行号linenumber加入候选集;对候选集进行过滤后按时间模板的优先级排序,选取排在最前面的时间为新闻的发布时间;4)以中文字符长度最长的一行文本为起点,分别向上和向下寻找正文的边界,以确定新闻的正文;5)根据已获得的新闻标题,发布时间和正文第一行的行号对新闻来源进行提取。 |
地址 |
100190 北京市海淀区中关村南四街四号1号楼 |