发明名称 一种基于连接代价的SPARQL语义数据查询优化方法
摘要 本发明提供了一种基于连接代价的SPARQL语义数据查询优化方法,本方法使用RDF的模式信息来精简SPARQL基本图模式,然后使用B树结构快速估计SPARQL连接图的节点大小及边权值,使用连接代价估计并结合动态规划方法找到最优逻辑查询计划,从而提高RDF语义数据的查询效率。<b />
申请公布号 CN104834754A 申请公布日期 2015.08.12
申请号 CN201510288922.1 申请日期 2015.05.29
申请人 武汉大学 发明人 徐雷;方卿;袁小群
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 张火春
主权项 一种基于连接代价的SPARQL语义数据查询优化方法,其特征在于,包括如下步骤:步骤1:构建RDF语义数据索引,使用B树结构对RDF语义数据进行索引存储,选择spo、pos、osp三种索引方式;其中,s为主语、p为谓语、o为宾语;步骤2:获取用户客户端提交的SPARQL查询语句,解析出SPARQL查询语句中的图模式,并表示为SPARQL连接图形式;步骤3:利用RDF模式信息简化SPARQL查询语句,得到简化的SPARQL连接图;步骤4:估计SPARQL查询语句子查询结果的基数大小cart(t);使用公式cart(t)=3×N/4进行估计,其中N表示子查询经过哈希运算后结果集个数的取值范围;t表示SPARQL查询语句中的一个子查询,对应精简后的SPARQL连接图中的一个节点;子查询是指SPARQL连接图模式中的一条三元组查询;步骤5:对连接操作的结果集大小进行估计;步骤6:根据步骤5得到的连接操作的结果集大小的估计值,使用动态规划方法在整个连接图空间中查找最优的执行顺序。步骤7:根据最佳执行顺序,产生新的SPARQL查询并提交服务器端执行语义查询;步骤8:结束。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学