基于本体的主题式网络爬虫系统构建方法,申请号CN200610040742.2-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于本体的主题式网络爬虫系统构建方法
摘要	本发明公开了一种基于本体的主题式网络爬虫系统构建方法，该方法包括以下步骤：(1)解析Web页面；(2)预处理当前页面的文本信息得到单词层信息；(3)把单词层信息转化为本体信息；(4)计算页面的主题相关度；(5)主题相关度大于设定值则提取当前所有出链接所指向的URL，否则转至步骤(7)；(6)如果所指向URL已被访问过，则提取下一链接；否则按照该链接所在页面的主题相关度大小插入优先等待访问队列；(7)从优先等待访问队列中选取第一个URL，也就是优先级最高的进行访问；(8)重复执行步骤(1)至(7)，直到出现没有满足条件的新URL。本发明的优点是结果准确率高且计算以及存储开销较小。
申请公布号	CN100392658C	申请公布日期	2008.06.04
申请号	CN200610040742.2	申请日期	2006.05.30
申请人	南京大学	发明人	高阳;苏畅
分类号	G06F17/30(2006.01)	主分类号	G06F17/30(2006.01)
代理机构	南京苏高专利商标事务所	代理人	柏尚春
主权项	1.一种基于本体的主题式网络爬虫系统构建方法，包括下列步骤：(1)对当前Web页面进行解析，其特征在于该方法还包括下列步骤：(2)将当前页面的文本信息进行预处理得到单词层信息；(3)通过本体管理系统把单词层信息转化为本体信息；(4)把得到的本体信息结合本体库计算页面的主题相关度；(5)如果当前页面主题相关度大于设定值则顺序提取当前Web页面中的所有出链接所指向的URL，否则转而执行步骤(7)；(6)如果该链接所指向URL已被访问过，则提取下一链接；如果该URL未被访问，则按照该链接所在页面的主题相关度大小插入优先等待访问队列；(7)从优先等待访问队列中选取第一个URL，也就是优先级最高的进行访问；(8)重复执行步骤(1)至(7)，直到出现没有满足条件的新URL。
地址	210093江苏省南京市汉口路22号

您可能感兴趣的专利

Verfahren zur Vorbehandlung beim Mahlen von Mehl

Optischer Stromsensor

BEFESTIGUNGSELEMENT FÜR GEWELLTE DACHEINDECKUNGEN

KLEBRIGGEMACHTE SEGMENTIERTE POLYDIORGANOSILOXANPOLYHARNSTOFF COPOLYMERE UND EIN VERFAHREN ZU DEREN HERSTELLUNG

DOPPEL-HELIX ANTENNENSYSTEM

Tragbarer Empfänger mit einer Antenne

DRUCKMESSGERÄT

Aus elementaren Dioden aufgebaute schnelle Diode mit höher Durchbruchspannung und höher direkter Stromzulässigkeit

Bilderzeugungsvorrichtung und Verfahren

FOTOEMPFINDLICHE ZUSAMMENSETZUNG UND FOTOEMPFINDLICHE GUMMIPLATTE

Konjugate von Methyltrithio-Antitumormitteln und Zwischenprodukte für deren Herstellung

AGENTS FOR THE PREVENTION AND TREATMENT OF SEXUALLY TRANSMITTED DISEASES -II

INFORMATION RECORDING MEDIUM CARTRIDGE

Pufferschaltungen

Verfahren zur Behandlung von Gasströmen

Schleifband-Herstellungsverfahren

INSTALLING OF THE SOFTWARE APPLICATIONS INTO A TERMINAL DEVICE

ADJUSTABLE ARC, ADJUSTABLE FLOW RATE SPRINKLER

Reaktiv - Trennmittel für die Entformung von Kunststoffharzen

Aufrollbarer Stabrost