发明名称 |
快速搜索所要查询内容的方法及装置 |
摘要 |
本发明公开了一种快速搜索所要查询内容的方法及装置,方法包括:从互联网采集各种数据,并在图形数据库中将其与图形结构中对应节点进行关联存储;将非结构化数据转化为能分析应用的结构化数据;进行清洗并建立统一的数据模型;采用HBase数据库建立数据仓库,对清洗后的数据进行后加载到数据仓库中;通过公司名称、简称或股票代码将分散的数据进行关联,并按照图形结构中节点和关系的模式存储在相应的节点中;从图形结构中抽取每个节点中所存储的数据,建立中文索引;输入要查询的语句,采用遍历算法搜索相关的图形结构,将搜索出的图形结构按照相关性的大小进行排列。本发明能快速进行检索、查询高效准确、能给用户提供较好、匹配效率较高。 |
申请公布号 |
CN106294588A |
申请公布日期 |
2017.01.04 |
申请号 |
CN201610613409.X |
申请日期 |
2016.07.28 |
申请人 |
广东中标数据科技股份有限公司 |
发明人 |
陈乐华;涂继来;黄晓晖 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京联瑞联丰知识产权代理事务所(普通合伙) 11411 |
代理人 |
张清彦 |
主权项 |
一种快速搜索所要查询内容的方法,其特征在于,包括如下步骤:A)使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储;所述图形结构包括若干个节点,具有关系的节点之间通过有向连接线连接;B)将所述采集的数据中非结构化数据转化为能分析应用的结构化数据;C)对所述结构化数据进行清洗,并根据业务领域及来源建立统一的数据模型;D)根据所述数据模型采用HBase数据库建立数据仓库,通过对清洗后的数据进行抽取、转换和加载处理,将分散的数据加载到所述数据仓库中;E)通过公司名称、简称或股票代码将所述分散的数据进行关联,并将所述分散的数据按照所述图形结构中节点和关系的模式存储在相应的节点中;F)从所述图形结构中抽取每个所述节点中所存储的数据,并建立中文索引;G)用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列。 |
地址 |
510030 广东省广州市越秀区大南路2号2708、2709、2710房 |