主权项 |
1、基于关联规则挖掘技术挖掘建设法规领域数据的方法,具体包含以下步骤:步骤一,生成建设法规文本向量空间模型,该建设法规文本向量空间模型定义为:d<sub>i</sub>=((t<sub>1</sub>,w<sub>i1</sub>),(t<sub>2</sub>,w<sub>i2</sub>),…,(t<sub>n</sub>,w<sub>in</sub>)) (1)步骤二,生成建设法规数据向量空间模型,建设法规数据的第i(i=k+1,k+2,…,n)个特征词的向量空间模型为:t<sub>i</sub>=(w<sub>i1</sub>,w<sub>i2</sub>,…,w<sub>im</sub>) (2)公式(1)和(2)中,t为特征词,k为文本向量空间分量中与同义词和近义词词典中相对应,权值被赋予1的特征词的个数;w<sub>ij</sub>表示第i个特征词在第j(j=1,2,…,m)个文本的向量空间模型式中出现的情况,w<sub>ij</sub>的取值为1或0,w<sub>ij</sub>=1表示特征词t<sub>i</sub>在第j个文本的特征中出现,w<sub>ij</sub>=0表示特征词t<sub>i</sub>在第j个文本的特征中未出现;步骤三,将建设法规数据向量空间模型转置得到建设法规数据特征向量空间模型,即生成了建设法规数据频繁特征项集G,G={t<sub>i</sub>|i=k+1,k+2,…,n};步骤四,输出建设法规数据关联规则,输出建设法规数据关联规则流程包括如下步骤:第(1)步,顺序提取频繁特征项集中的一对特征,计算特征间的关联度εij;第(2)步,判断ε<sub>ij</sub>是否大于等于0.6;若ε<sub>ij</sub>大于等于0.6,可得关联规则<maths num="0001"><![CDATA[<math><mrow><mo>'</mo><msub><mi>t</mi><mi>i</mi></msub><mo>⇒</mo><msub><mi>t</mi><mi>j</mi></msub><mo>'</mo><mo>;</mo></mrow></math>]]></maths>则输出关联规则到W3词表中,并转到第(4)步;第(3)步,若ε<sub>ij</sub>小于0.6,则进行第(4)步;第(4)步,判断是否到频繁特征项集尾部,若是则结束,否则转到第(1)步。 |