发明名称 |
一种新型语义关联挖掘方法 |
摘要 |
本发明公开了一种新型语义关联挖掘方法,包括步骤为:将输入的语义数据进行解析并聚类,形成语义数据簇并进行数据清洗,将资源描述框架图转化为类型对象图;对类型对象图进行分块或合并,得到多个分块;预测每个分块中潜在的链接模式和语义关联的数量级,预测结果反馈给二划分单元,对较大或结构复杂的分块进一步划分;挖掘出分块的局部链接模式和语义关联,将语义关联汇总和统计,输出给用户。通过上述方式,本发明提供的一种新型语义关联挖掘方法,该方法有高效、挖掘结果准确等特点,能刻画多个对象之间的复杂关联,并将链接模式用于衡量语义关联的典型性,使用图挖掘技术开展挖掘,提高了语义关联挖掘在大规模语义数据上的可行性和效率。 |
申请公布号 |
CN102902809B |
申请公布日期 |
2016.02.24 |
申请号 |
CN201210399288.5 |
申请日期 |
2012.10.19 |
申请人 |
东南大学 |
发明人 |
张祥 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京瑞思知识产权代理事务所(普通合伙) 11341 |
代理人 |
袁红红 |
主权项 |
一种新型语义关联挖掘方法,其特征在于,包括步骤为:(1)将输入的语义数据进行解析并聚类,形成语义数据簇,对所述语义数据簇进行数据清洗,并将所述语义数据簇的资源描述框架图转化为类型对象图,所述资源描述框架图转化为类型对象图的过程为对资源描述框架图中的资源描述框架三元组进行过滤,再将所述资源描述框架三元组扩展为链接五元组,利用所述链接五元组将所述资源描述框架图转化为所述类型对象图;(2)通过基本标记规则对所述类型对象图进行分块或合并,得到多个分块,所述基本标记规则采用接近随机的标记方法;(3)采用快速挖掘法预测所述每个分块中潜在的链接模式和语义关联的数量级,预测结果反馈给二划分单元,对较大或结构复杂的分块进一步划分;具体地,通过基本标记规则,类型对象图被划分为多个分块,要保证所述分块具有一定的数学性质,并且每个分块均能够载入内存,为了提高分块的均匀性,引入了二划分单元,快速挖掘并预测每个分块中潜在的链接模式与语义关联的数量级,并将数据结果反馈给二划分单元,用于将多划分后仍然较大或结构较为复杂度的分块进一步进行层次化划分,使得较大或结构较为复杂度的分块能够尽早发现并进一步得到划分,从而提高整体划分的均匀性;(4)挖掘出所述分块的局部链接模式和语义关联,再将所述局部链接模式和所述语义关联进行合并,将所述语义关联汇总和统计,输出给用户;所述挖掘方法为分阶段挖掘方法或合并挖掘方法,所述分阶段挖掘方法通过频繁模式挖掘算法从所述类型对象图中挖掘出部分或所有所述链接模式,选取所述链接模式中的部分模式,根据所述部分模式在所述资源描述框架图中选择实例化子图作为所述语义关联;所述合并式挖掘方法,通过频繁模式挖掘算法挖掘所述链接模式时,所述语义关联在计算所述链接模式支持度时被挖掘出来。 |
地址 |
215123 江苏省苏州市独墅湖高教区林泉街399号 |