发明名称 基于关联规则挖掘技术挖掘建设法规领域数据的方法
摘要 本发明公开了一种基于关联规则挖掘技术挖掘建设法规领域数据的方法,第一步生成建设法规文本向量空间模型,第二步生成建设法规数据向量空间模型:第三步由建设法规数据向量空间模型转置生成建设法规数据特征向量空间模型,即生成频繁特征集,第四步进行建设法规数据关联度计算并输出关联规则。该方法可对建设法规领域数据进行挖掘,为用户对数据的查询提供较高的查全率和推荐相关联的查询内容,解决了现有关联分析技术不能对离群数据的关联分析的技术难题。
申请公布号 CN101655857A 申请公布日期 2010.02.24
申请号 CN200910023991.4 申请日期 2009.09.18
申请人 西安建筑科技大学 发明人 苏变萍;金维兴;董丽丽;侯筱婷
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安恒泰知识产权代理事务所 代理人 李郑建
主权项 1、基于关联规则挖掘技术挖掘建设法规领域数据的方法,具体包含以下步骤:步骤一,生成建设法规文本向量空间模型,该建设法规文本向量空间模型定义为:d<sub>i</sub>=((t<sub>1</sub>,w<sub>i1</sub>),(t<sub>2</sub>,w<sub>i2</sub>),…,(t<sub>n</sub>,w<sub>in</sub>))        (1)步骤二,生成建设法规数据向量空间模型,建设法规数据的第i(i=k+1,k+2,…,n)个特征词的向量空间模型为:t<sub>i</sub>=(w<sub>i1</sub>,w<sub>i2</sub>,…,w<sub>im</sub>)                          (2)公式(1)和(2)中,t为特征词,k为文本向量空间分量中与同义词和近义词词典中相对应,权值被赋予1的特征词的个数;w<sub>ij</sub>表示第i个特征词在第j(j=1,2,…,m)个文本的向量空间模型式中出现的情况,w<sub>ij</sub>的取值为1或0,w<sub>ij</sub>=1表示特征词t<sub>i</sub>在第j个文本的特征中出现,w<sub>ij</sub>=0表示特征词t<sub>i</sub>在第j个文本的特征中未出现;步骤三,将建设法规数据向量空间模型转置得到建设法规数据特征向量空间模型,即生成了建设法规数据频繁特征项集G,G={t<sub>i</sub>|i=k+1,k+2,…,n};步骤四,输出建设法规数据关联规则,输出建设法规数据关联规则流程包括如下步骤:第(1)步,顺序提取频繁特征项集中的一对特征,计算特征间的关联度εij;第(2)步,判断ε<sub>ij</sub>是否大于等于0.6;若ε<sub>ij</sub>大于等于0.6,可得关联规则<maths num="0001"><![CDATA[<math><mrow><mo>'</mo><msub><mi>t</mi><mi>i</mi></msub><mo>&DoubleRightArrow;</mo><msub><mi>t</mi><mi>j</mi></msub><mo>'</mo><mo>;</mo></mrow></math>]]></maths>则输出关联规则到W3词表中,并转到第(4)步;第(3)步,若ε<sub>ij</sub>小于0.6,则进行第(4)步;第(4)步,判断是否到频繁特征项集尾部,若是则结束,否则转到第(1)步。
地址 710055陕西省西安市雁塔路13号