发明名称 一种知识抽取的方法
摘要 本发明公开了一种知识抽取的方法,包括以下步骤:计算约简初值;启用双矩编码策略;搜索初始化;计算结束判据;计算搜索个体的适应值;最优保存;状态转移联合操作。本发明采用双矩编码策略,搜索个体位置编码成0、1字符串,维度与条件属性个数相同。当维度规模超过23时,完成约简所消耗的时间并不呈指数显著增长,节约了空间维度和时间。本发明采用粗糙集正区判别POS'E=U′pos适应值为对应条件属性个数,如果POS'E≠U′pos适应值惩罚为条件属性总数,这一策略简单合理地保证了知识抽取效果。本发明用搜索个体所组成的群体优势动态地搜索,并采用一种有效的正区比较进行特征组合得到多知识的方法。
申请公布号 CN102663142B 申请公布日期 2014.02.26
申请号 CN201210157204.7 申请日期 2012.05.18
申请人 大连海事大学 发明人 刘洪波;冯士刚;陈荣;张维石
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连东方专利代理有限责任公司 21212 代理人 李洪福
主权项 1.一种知识抽取的方法,其特征在于:包括以下步骤:A、计算约简初值根据公式(1)、(2)和(3)计算约简正区POS'<sub>E</sub>、约简论域U'、约简正区U′<sub>pos</sub><img file="FDA00001657206400011.GIF" wi="1322" he="126" />记U/C={[u'<sub>1</sub>]<sub>C</sub>,[u'<sub>2</sub>]<sub>C</sub>,…,[u'<sub>m</sub>]<sub>C</sub>},则U′={u′<sub>1</sub>,u'<sub>2</sub>,…,u'<sub>m</sub>}                     (2)<maths num="0001"><![CDATA[<math><mrow><msub><msup><mi>U</mi><mo>&prime;</mo></msup><mi>POS</mi></msub><mo>=</mo><mo>{</mo><msub><msup><mi>u</mi><mo>&prime;</mo></msup><msub><mi>i</mi><mn>1</mn></msub></msub><mo>,</mo><msub><msup><mi>u</mi><mo>&prime;</mo></msup><msub><mi>i</mi><mn>2</mn></msub></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><msub><msup><mi>u</mi><mo>&prime;</mo></msup><msub><mi>i</mi><mi>t</mi></msub></msub><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>B、启用双矩编码策略在解空间中搜索个体时,需要根据解空间的维度进行编码,所述的编码是将条件属性直接与搜索个体的位置维度形成映射,当信息系统论域对象超过4000、维度规模超过23时,每3个属性对应于一个编码单元,这样,在维度上表现为1位,位置的取值范围为0~7的整数;C、搜索初始化为不失一般性,假定约简的定义域为[0,r],即解空间最大取值为r,最小取值为0,解空间维度为d,如果步骤B中采用的是一位编码表示法,那么r=1;如果步骤B中采用的是缩位编码表示法,那么r=7;利用n个搜索个体所形成的种群在解空间进行并行搜索,令搜索个体的最大速度v<sub>max</sub>=r;时间步t=0时,对n个搜索个体的进行随机初始化,即第i个搜索个体的第j维的位置p<sub>ij</sub>=Rand(0,r)和第i个搜索个体的第j维的速度v<sub>ij</sub>=Rand(-v<sub>max</sub>,v<sub>max</sub>);式中,r为定义域,t为时间步;D、计算结束判据若满足预定最大迭代次数或10次迭代结果无改善,则输出结果p*和f(p*)并结束计算;否则,转步骤E;式中,p*为搜索个体所组成的群中最好的个体状态,<img file="FDA00001657206400013.GIF" wi="71" he="68" />是第i个搜索个体从t=0开始迭代到当前最好的状态,f(p*)是搜索个体所组成的群中最好的个体状态所确定的适应值;E、计算搜索个体的适应值采用粗糙集正区判别,如果POS'<sub>E</sub>=U′<sub>pos</sub>,则适应值为对应条件属性个数;如果POS'<sub>E</sub>≠U′<sub>pos</sub>,则适应值惩罚为条件属性总数;F、最优保存令t=t+1,实施最优保存策略,即:<maths num="0002"><![CDATA[<math><mrow><msubsup><mi>p</mi><mi>i</mi><mo>#</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><msubsup><mi>p</mi><mi>i</mi><mo>#</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><msup><mi>p</mi><mo>*</mo></msup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mrow><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><msup><mi>p</mi><mo>*</mo></msup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>p</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mrow></math>]]></maths>G、状态转移联合操作引入搜索个体所组成的群体优势动态地搜索,针对每个搜索个体的每一维度根据公式(4)、(5)和(6)执行状态转移联合操作:<maths num="0004"><![CDATA[<math><mrow><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>wv</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><msub><mi>c</mi><mn>1</mn></msub><msub><mi>r</mi><mn>1</mn></msub><mrow><mo>(</mo><msubsup><mi>p</mi><mi>ij</mi><mo>#</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mi>p</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo><mo>+</mo><msub><mi>c</mi><mn>2</mn></msub><msub><mi>r</mi><mn>2</mn></msub><mrow><mo>(</mo><msubsup><mi>p</mi><mi>j</mi><mo>*</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mi>p</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msub><mi>p</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mi>if&rho;</mi><mo>&lt;</mo><mi>sig</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>otherwise</mi><mo>.</mo></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<maths num="0006"><![CDATA[<math><mrow><mi>sig</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths>转步骤D。
地址 116026 辽宁省大连市高新园区凌海路1号