发明名称 对网页文本内容进行提取的方法和装置
摘要 本发明公开了一种对网页文本内容进行提取的方法和装置。本发明实施例提供的一种对网页文本内容进行提取的方法包括:在浏览器侧预设至少一网页文本内容匹配设置;在浏览器侧进行网页内容下载;将网页内容分别与网页文本内容匹配设置进行匹配,直至网页内容匹配成功;利用与网页内容匹配成功的网页文本内容匹配设置,提取网页内容中的网页文本内容。
申请公布号 CN103020266B 申请公布日期 2016.06.29
申请号 CN201210573022.8 申请日期 2012.12.25
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 谢洲为;潘洪学;糜裕峰;任寰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市隆安律师事务所 11323 代理人 权鲜枝;齐辉
主权项 一种对网页文本内容进行提取的方法,包括:在浏览器侧预设至少一网页文本内容匹配设置,每个网页文本内容匹配设置中包括根据网页的文本内容建立的一个或多个匹配设置项;在浏览器侧进行网页内容下载;将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述网页内容中的网页文本内容;所述在浏览器侧预设至少一网页文本内容匹配设置包括:建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中;其中,所述匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分所述网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置,至少两个所述网页文本内容的匹配设置中分别包括对相同类型文本内容的不同匹配设置项。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)