发明名称 多线程分析网页资料的系统及方法
摘要 一种多线程分析网页资料的系统,包括应用伺服器、网页分析规则库、下载网页资料库及分析网页资料库,所述应用伺服器包括:下载模组、转换模组、判断模组、分析模组、储存模组及反馈模组。利用本发明可以能快速、有效地萃取所需浏览网页中的资讯。
申请公布号 TWI315835 申请公布日期 2009.10.11
申请号 TW095134261 申请日期 2006.09.15
申请人 鸿海精密工业股份有限公司 发明人 李忠一;叶建发;卢秋桦;陈旭纯
分类号 G06F17/40;G06F17/27;G06N5/00 主分类号 G06F17/40
代理机构 代理人
主权项 一种多线程分析网页资料的系统,包括应用伺服器、网页分析规则库、下载网页资料库及分析网页资料库,其特征在于,所述应用伺服器包括:下载模组,用于下载所需分析的网页,并将该网页储存至下载网页资料库;转换模组,用于将网页内容格式转换为可延伸标示语言格式;判断模组,用于根据该可延伸标示语言格式内容结点判断所述网页分析规则库中是否有与该网页内容相应的分析规则,根据所述分析规则中是否有对网页内容的限定判断是否对分析后的网页内容进行评估,及根据所述分析规则中的限定判断所述分析后的网页内容是否符合评估要求;分析模组,用于当所述网页分析规则库中有与该网页内容相应的分析规则时,根据所述分析规则对网页内容进行分析,及当所述分析规则中有对网页内容的限定时,对分析后的网页内容进行评估;储存模组,用于将符合评估要求的网页内容储存至分析网页资料库;及反馈模组,用于当分析后的网页内容不符合评估要求时,将该分析规则反馈到网页分析规则库。
地址 台北县土城市自由街2号