发明名称 一种查询方法
摘要 本发明为一种网页资料查询方法,其包括A、B两种演算法,演算法A系将原始码依照标签位置进行主从层级分类,并依据同一层级的同一标签属性取得资料;演算法B系由至少两笔资料的标签中取出相同之处,建立萃取规则,而后取得符合规则的资料;藉由A、B两种演算法来进行资料的萃取(Extractor),并藉由A、B两种演算法的不同达到相互修正的优点。
申请公布号 TWI252992 申请公布日期 2006.04.11
申请号 TW093130296 申请日期 2004.10.07
申请人 林宗翰 发明人 林宗翰
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 江舟峰 台北市中山区长安东路2段81号6楼
主权项 1.一种网页资料查询方法,其步骤包括有: A设定流程 a.将待查询网页的资料转换为原始码; b.根据原始码的标签规则进行分类整理; c.采用演算法A,将原始码依照标签位置进行主从层 级分类,并依据同一层级的同一标签属性取得资料 ; d.若演算法A成功,则储存演算规则后进行下一步骤 ;若演算法A失败,则先挑出错误的资料或是选出正 确的资料,而后将剩余资料重新采用演算法A分析; e.采用演算法B,其系由至少两笔资料的标签中取出 相同之处,建立萃取规则,而后取得符合规则的资 料; f.若演算法B成功,则储存演算规则;若演算法B失败, 则先挑出错误的资料或是选出正确的资料,而后将 剩余资料重新采用演算法B分析; B萃取流程 g.将待查询网页依照演算法A规则进行分析; h.若萃取资料成功,则储存查询结果,完成分析;若 萃取失败,再进行下一步骤; i.将待查询网页根据演算法B规则进行分析; j.若萃取资料成功,则储存查询结果,完成分析;若 萃取失败,再进行下一步骤; k.尝试其他组的演算法A或演算法B; l.若萃取资料成功,则储存查询结果,完成分析;若 萃取失败,再进行下一步骤; m.自动告知使用者重新执行设定流程。 2.如申请专利范围第1项所述一种网页资料查询方 法,其中该演算法A或演算法B的执行顺序可以相互 置换。 3.如申请专利范围第1项所述一种网页资料查询方 法,其中该演算法A系由任一资料中相对的<x>与</x> 代表为一组标签,若<x></x>组设为层级1,且<x></x>组 中有另外一组标签如<x><y></y></x>,则<y></y>组代表为 层级2的标签,以此类推,形成一层级分类的资料表, 若查询样本位于层级1之中且同时为<x></x>组资料, 则同时将表中位于同一层级且同时为<x></x>之资料 取出。 4.如申请专利范围第1项所述一种网页资料查询方 法,其中该演算法B系由至少两笔以上的资料中,将 相对的标签或资料相同之处列出,建立萃取规则, 若查询样本位在此相同之处,则根据萃取规则,将 所有符合的资料取出。 图式简单说明: 图一为本发明之设定流程图; 图二为本发明之实施流程图; 图三为本发明之范例网页;以及 图四为根据图三所完成的树状图。
地址 台北市信义区富阳街21巷1之1号5楼