发明名称 |
行业数据高效检索方法 |
摘要 |
本发明提供了一种行业数据高效检索方法:通过比较电商网站所有web页面及其每一网址指向的页面所分别包含的本体集间的关系找出web页面的URL;将URL上的链接文本映射到该URL指向的web页面所包含本体上,归入该本体的属性集;将B‑树的每个节点代表一个web页面,以深度优先方式根据下位网址语义生成下层叶节点;对于新生成的每个叶节点,判断从根节点到叶节点路径上的隐藏属性所构成该叶节点的隐藏属性集是否和已有的某个叶节点相同。本发明提出了一种行业数据高效检索方法,克服了字符串配对式搜索的瓶颈,提高了搜索结果的精确性。 |
申请公布号 |
CN106202567A |
申请公布日期 |
2016.12.07 |
申请号 |
CN201610631553.6 |
申请日期 |
2016.08.03 |
申请人 |
成都四象联创科技有限公司 |
发明人 |
赖真霖;文君 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天奇智新知识产权代理有限公司 11340 |
代理人 |
杨春 |
主权项 |
一种行业数据高效检索方法,其特征在于,包括:通过比较电商网站所有web页面及其每一网址指向的页面所分别包含的本体集间的关系找出web页面的URL;将URL上的链接文本映射到该URL指向的web页面所包含的本体上,归入该本体的属性集;将B‑树的每个节点代表一个web页面,父节点指向叶节点的边代表相应web页面间的下位关系,边上的值即为相应的隐藏属性,以深度优先方式根据下位网址语义生成下层叶节点;对于新生成的每个叶节点,判断从根节点到叶节点路径上的所有隐藏属性所构成该叶节点的隐藏属性集是否和已有的某个叶节点相同,若有则丢弃该叶节点,以完成属性的爬取,所有属性信息供页面信息提取过程提取。 |
地址 |
611730 四川省成都市高新区(西区)天辰路88号电子科技大学西区科技园9栋 |