一种新闻关键信息的提取方法及系统,申请号CN201610313098.5-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种新闻关键信息的提取方法及系统
摘要	本发明公开了一种新闻关键信息的提取方法及系统，该系统首先通过预处理将网页转换成行号和文本的集合，然后根据字数最长的一句话出现在新闻正文的概率极高的特点，从正文中间开始向两端寻找正文的起点和终点提取新闻正文；根据最长公共子串算法提取标题，构造正则表达式并以行号辅助判断提取时间，根据来源的格式特点并辅以行号提取来源，最后可根据已获得新闻的标题、时间、来源和正文，将获得的内容以换行符为分隔符，以此为顺序写入本地文件中。具有较高的准确率，且不依赖特定的网页模板，具有较强的实用性和鲁棒性；同时，本发明方法复杂度低，提取的结果更为精确，消耗的资源更少。
申请公布号	CN106021392A	申请公布日期	2016.10.12
申请号	CN201610313098.5	申请日期	2016.05.12
申请人	中国互联网络信息中心	发明人	李晓东;向菁菁;耿光刚
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京君尚知识产权代理事务所(普通合伙) 11200	代理人	冯艺东
主权项	一种新闻关键信息的提取方法，包括以下步骤：1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本；2)从所述文本中获取<title></title>标签对中的内容，逐行匹配获得新闻标题；3)采用常规的时间模板，并以对应的顺序为优先级，匹配每一行所包含的时间，将得出的时间timeString和所在行的行号linenumber加入候选集；对候选集进行过滤后按时间模板的优先级排序，选取排在最前面的时间为新闻的发布时间；4)以中文字符长度最长的一行文本为起点，分别向上和向下寻找正文的边界，以确定新闻的正文；5)根据已获得的新闻标题，发布时间和正文第一行的行号对新闻来源进行提取。
地址	100190 北京市海淀区中关村南四街四号1号楼

您可能感兴趣的专利

Display device for programmable controller

Linking device for linking computers to a reproduction device

Decorative sound spectrum display

Horseshoe-shaped pager

Dashboard display mount

Design for necklace

NEAR-INFRARED ABSORBING FILM, AND MULTI-LAYERED PANEL COMPRISING THE FILM

TWO-PIECE HUB EXTENSION

SOLDERLESS PIN CONNECTION

AUTOMATIC DIFFERENTIAL LOCK

GUIDED DRILLING SYSTEM WITH SHOCK ABSORBER

ESTERS OF ACYL CARNITINES WITH LONG-CHAIN ALIPHATIC ALCOHOLSAND PHARMACEUTICAL COMPOSITIONS CONTAINING SAME HAVING ANTIMYCOTIC ACTIVITY

MICROMECHANICAL SENSOR AND METHOD FOR PRODUCING SAME

ARTIFICIAL AIRWAY DEVICE

Combined motor vehicle rearview camera system and hitch cover

Heterociclos de 5 anéis substituìdos, sua preparação e sua utilização