一种文本提取方法及装置,申请号CN201410026939.5-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种文本提取方法及装置
摘要	本发明涉及一种文本提取方法，所述方法包括：步骤一、预处理给定的网页的超文本传输协议html源码，以获取所述源码中的文本的字符串序列，所述字符串序列包含N个文本行；步骤二、提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性；步骤三、依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定。通过本发明实施例能够提高网页中文本块提取的准确度，提高搜索引擎的搜索效率和准确度。
申请公布号	CN103810251A	申请公布日期	2014.05.21
申请号	CN201410026939.5	申请日期	2014.01.21
申请人	南京财经大学	发明人	卜湛;伍之昂;曹杰;李秀怡;刘英卓
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京亿腾知识产权代理事务所 11309	代理人	陈霁
主权项	一种文本提取方法，其特征在于，所述方法包括：步骤一、预处理给定的网页的超文本传输协议html源码，以获取所述源码中的文本的字符串序列，所述字符串序列包含N个文本行；步骤二、提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性;步骤三、依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定。
地址	210003 江苏省南京市铁路北街128号

您可能感兴趣的专利

Gas concentration sensor with dose monitoring

Method of making an ultrasonic probe

Cell manipulating apparatus

RECORDING APPARATUS

VOICE ACCUMULATING AND REPRODUCING DEVICE

Pipe cleaning method

Multiple bandwidth crystal controlled oscillator

Coating composition

Aromatic carbonate compositions modified with oxazoline functionalized polystyrene reacted with an ethylene elastomer containing reactive polar groups

Bi-compliant rotor stepper motor for an actuator in a disc drive

Gas treating apparatus

Overcoated electrophotographic photoreceptor contains metal acetyl acetonate in polymer layer

Expandable refrigeration system

Hydraulic system for operating switching or like devices

Tape cassette with pressable cap for fixing reel on reel base

Spraying apparatus

Calcium salt of valproic acid

Method of manufacturing non-linear resistive element array

Multi-section tunable laser with differing multi-element mirrors

Microcomputer-controlled programmable time switch