发明名称 网络信息抽取及处理的方法及系统
摘要 一种网络信息抽取及处理的方法及系统,采用了人工智能与自然语言处理技术,能够自动的从各个指定的站点下载每天最新的新闻信息,并且进行内容抽取,分类,自动摘要精简全文,且将全文储存,并进行文本索引以便日后进行高效的全文检索。
申请公布号 CN1536483A 申请公布日期 2004.10.13
申请号 CN03109338.8 申请日期 2003.04.04
申请人 陈文中 发明人 陈文中
分类号 G06F9/445;G06F17/00;G06F17/27;G06F17/30 主分类号 G06F9/445
代理机构 中国商标专利事务所有限公司 代理人 吴平
主权项 1、一种网络信息抽取及处理的方法,包括如下步骤:一.新闻下载步骤:包括如下步骤url分析步骤:系统指定一定的url,程序能够自动的从这些url上分析出新闻的最终内容url,而不用对每个新闻网站做一个特定的url模块,采用给予url统计以及对url进行相关性分析的方法,在一个含有最终内容新闻连接地址的网页,进行统计和分析,找到有用的最终url地址;自动抓取新闻网页步骤:将目标地址中的链接页面所有符合url格式的页面进行下载;垃圾过滤步骤:实现对抓下来的新闻内容网页进行垃圾过滤,除去其中的html标签以及一些无用的中文,最终得到中文向量信息;信息提取步骤:对以上得到的中文向量进行信息提取,前期实现能够提取标题和内容,后期实现对web新闻内容进行特征提取,相关性分析,文档分类,排重处理等等;二.自动生成摘要步骤:进行分词、特征词分析、句子重要分析、生成摘要,并输出摘要;三.生成全文索引步骤:对所有已经下载并且完成内容抽取的新闻内容文件进行全文索引,包括如下步骤:传入步骤,传入下一个文件名;索引判断步骤,判断是否已经索引过,是则回到传入步骤,否则进入下一步;过滤步骤,过滤其中所有垃圾及无意义的词;匹配分词步骤,进行词典匹配分词;ngram分词步骤,进行ngram分词,以免词典分词有未能完全分出来的词;更新步骤,对每一个词都更新相关的索引文件,包括关键字和日期,类别索引;四.层次文本分类步骤:是把一个新的文档归入一个给定的层次类别里的一个类里分类步骤;每份文档仅仅只能被归入一个类里,在层次类别里的每个类与许多词汇和术语相关有较大权重一个给定的术语在层次中的一个层次上,而stopword在另一个层次上.被摘录的文档(财政的新闻)的特征词在这个系统中被当作术语和字汇使用;包括层次训练步骤和文档分类步骤;层次训练是文档分类的预处理,在分类之前,先对类别的层次进行训练;训练的功能是要收集来自训练文档的一组特征(特征词),然后为每个节点(类别)在层次中分配特征权重,在文档分类算法中,特征权重是用来为一份新的文档计算类别等级;文件分类步骤是在被训练阶级组织之后,现在一份文件能被分类到一个类别,文件分类方法从根类别开始,根类别的所有子类别被分配等级,它由下面等式计算:<math> <mrow> <msub> <mi>R</mi> <mi>cd</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mi>f</mi> </munder> <msub> <mi>N</mi> <mi>fd</mi> </msub> <msub> <mi>W</mi> <mi>fc</mi> </msub> </mrow> </math> c是一个类别,d是一份文件,f是一个在D中的特征,Rcd是c的等级,Nfd是f出现在d中的次数,Wfc是f在类别c中的权重;如果所有子类别的等级都是零的或负的,d被留在根类别;如果在子类别中有确定的正的最大的等级的类别,则该类别被选择;如果该类别是一个叶类别,文件d被分到该类别;如果被选择的类别不是叶类别,则在该类别的子类别中继续进行计算;因此,文件d能分到叶类别或内部类别。
地址 香港屯门黄金海岸4座19D