发明名称 |
一种互联网视听、文本及图像的全媒体搜索方法及装置 |
摘要 |
本发明提供一种互联网视听、文本及图像的全媒体搜索方法及装置,根据预设的搜索词库,搜索包含有目标网页的第一可疑网站;根据第一可疑网站,对第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;根据预先学的搜索框特征,识别第一可疑网站和第二可疑网站中是否包含搜索框;在包含搜索框的第一可疑网站和第二可疑网站中,根据搜索词库在搜索框内进行站内搜索,得到目标网页,并将目标网页的网页链接以及网站域名保存到库中。本发明实施例通过预设的搜索词库,缩小了搜索范围,得到可疑网站,通过对可疑网站进行识别搜索框的操作,得到目标网站,提高了扩散搜索的广度以及垂直搜索的深度,从而提高了查全率。 |
申请公布号 |
CN103530350B |
申请公布日期 |
2017.02.08 |
申请号 |
CN201310468171.2 |
申请日期 |
2013.10.09 |
申请人 |
北京中科模识科技有限公司 |
发明人 |
陈鑫玮;姜洪臣 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
李相雨 |
主权项 |
一种互联网视听、文本及图像的全媒体搜索方法,其特征在于,包括:根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站;根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框;在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名保存到库中;所述根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,进一步包括:对搜索到的网站的网页链接进行URL地址分析,解析出所述URL地址所属的网站域名,并对搜索到的网站的网站域名进行重复性排除;对进行重复性排除后的网站域名进行访问,根据目标特征对访问的网站进行研判,判断是否包含有目标网页,如果有,且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。 |
地址 |
100190 北京市海淀区中关村东路95号自动化大厦5层 |