发明名称 一种新闻关键信息的提取方法及系统
摘要 本发明公开了一种新闻关键信息的提取方法及系统,该系统首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文;根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源,最后可根据已获得新闻的标题、时间、来源和正文,将获得的内容以换行符为分隔符,以此为顺序写入本地文件中。具有较高的准确率,且不依赖特定的网页模板,具有较强的实用性和鲁棒性;同时,本发明方法复杂度低,提取的结果更为精确,消耗的资源更少。
申请公布号 CN106021392A 申请公布日期 2016.10.12
申请号 CN201610313098.5 申请日期 2016.05.12
申请人 中国互联网络信息中心 发明人 李晓东;向菁菁;耿光刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 冯艺东
主权项 一种新闻关键信息的提取方法,包括以下步骤:1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本;2)从所述文本中获取<title></title>标签对中的内容,逐行匹配获得新闻标题;3)采用常规的时间模板,并以对应的顺序为优先级,匹配每一行所包含的时间,将得出的时间timeString和所在行的行号linenumber加入候选集;对候选集进行过滤后按时间模板的优先级排序,选取排在最前面的时间为新闻的发布时间;4)以中文字符长度最长的一行文本为起点,分别向上和向下寻找正文的边界,以确定新闻的正文;5)根据已获得的新闻标题,发布时间和正文第一行的行号对新闻来源进行提取。
地址 100190 北京市海淀区中关村南四街四号1号楼