基于信息抽取技术的搜索引擎,申请号CN02111893.0-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于信息抽取技术的搜索引擎
摘要	本发明涉及一种基于信息抽取技术的搜索引擎，利用机器学的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。通过训练和学，调整规则数目和抽象程度，使其满足精度要求，然后基于学提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面，利用规则进行信息提取。本发明有益的效果是：将信息抽取技术与搜索引擎技术有机地结合在一起，是一个非常有效、准确的信息获取工具，它能够较大范围地提高人们的工作效率。
申请公布号	CN1410918A	申请公布日期	2003.04.16
申请号	CN02111893.0	申请日期	2002.05.31
申请人	浙江大学	发明人	吴朝晖;徐杰锋;陆伟
分类号	G06F17/40	主分类号	G06F17/40
代理机构	杭州九洲专利事务所有限公司	代理人	陈继亮
主权项	1、一种基于信息抽取技术的搜索引擎，其特征是：利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。
地址	310027浙江省杭州市玉古路20号浙大计算机系

您可能感兴趣的专利

IMAGE FORMING APPARATUS

LINE SEGMENT DETECTION APPARATUS, AND STORAGE MEDIUM STORING CONTROL PROGRAM

Method for Monitoring Quality of Yarn by Electronic Yarn Cleaner and Detector for Carrying out the Method

SPECTROSCOPIC MEASUREMENT DEVICE AND SPECTROSCOPIC MEASUREMENT METHOD

MOBILE MEASUREMENT DEVICES, INSTRUMENTS AND METHODS

BIT PATTERNED MEDIA TEMPLATE INCLUDING ALIGNMENT MARK AND METHOD OF USING SAME

COMPUTER-READABLE STORAGE MEDIUM, GENERATING METHOD, GENERATING APPARATUS, DRIVING APPARATUS, PROCESSING APPARATUS, LITHOGRAPHY APPARATUS, AND METHOD OF MANUFACTURING ARTICLE

Hybrid Light Engine for Projector

LIQUID CRYSTAL DISPLAY DEVICE

IMAGE DISPLAY APPARATUS

DISPLAY DEVICE AND METHOD FOR SENSING A BENDING OF THE DEVICE

IMAGING APPARATUS AND SHUTTER OPERATION SELECTING METHOD

IMAGE PROCESSING APPARATUS AND IMAGE PROCESSING METHOD

Imaging Lens, and Electronic Apparatus Including the Same

SOLID STATE IMAGING DEVICE, SIGNAL PROCESSING DEVICE, AND ELECTRONIC APPARATUS

MONOCENTRIC IMAGING

PHOTOGRAPHING APPARATUS, PHOTOGRAPHING METHOD AND RECORDING MEDIUM ON WHICH PHOTOGRAPHING/DISPLAY PROGRAM IS RECORDED

METHOD AND APPARATUS TO CORRECT DIGITAL IMAGE BLUR DUE TO MOTION OF SUBJECT OR IMAGING DEVICE BY ADJUSTING IMAGE SENSOR

CAMERA LENS MODULE

Method and Apparatus for Correcting Multi-Exposure Motion Image