一种知识抽取的方法,申请号CN201210157204.7-传众专利搜索

发明名称	一种知识抽取的方法
摘要	本发明公开了一种知识抽取的方法，包括以下步骤：计算约简初值；启用双矩编码策略；搜索初始化；计算结束判据；计算搜索个体的适应值；最优保存；状态转移联合操作。本发明采用双矩编码策略，搜索个体位置编码成0、1字符串，维度与条件属性个数相同。当维度规模超过23时，完成约简所消耗的时间并不呈指数显著增长，节约了空间维度和时间。本发明采用粗糙集正区判别POS'E＝U′pos适应值为对应条件属性个数，如果POS'E≠U′pos适应值惩罚为条件属性总数，这一策略简单合理地保证了知识抽取效果。本发明用搜索个体所组成的群体优势动态地搜索，并采用一种有效的正区比较进行特征组合得到多知识的方法。
申请公布号	CN102663142B	申请公布日期	2014.02.26
申请号	CN201210157204.7	申请日期	2012.05.18
申请人	大连海事大学	发明人	刘洪波;冯士刚;陈荣;张维石
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	大连东方专利代理有限责任公司 21212	代理人	李洪福
主权项	1.一种知识抽取的方法，其特征在于：包括以下步骤：A、计算约简初值根据公式(1)、(2)和(3)计算约简正区POS'<sub>E</sub>、约简论域U'、约简正区U′<sub>pos</sub><img file="FDA00001657206400011.GIF" wi="1322" he="126" />记U/C={[u'<sub>1</sub>]<sub>C</sub>,[u'<sub>2</sub>]<sub>C</sub>,…,[u'<sub>m</sub>]<sub>C</sub>}，则U′＝{u′<sub>1</sub>,u'<sub>2</sub>,…,u'<sub>m</sub>} (2)<maths num="0001"><![CDATA[<math><mrow><msub><msup><mi>U</mi><mo>′</mo></msup><mi>POS</mi></msub><mo>=</mo><mo>{</mo><msub><msup><mi>u</mi><mo>′</mo></msup><msub><mi>i</mi><mn>1</mn></msub></msub><mo>,</mo><msub><msup><mi>u</mi><mo>′</mo></msup><msub><mi>i</mi><mn>2</mn></msub></msub><mo>,</mo><mo>·</mo><mo>·</mo><mo>·</mo><msub><msup><mi>u</mi><mo>′</mo></msup><msub><mi>i</mi><mi>t</mi></msub></msub><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>B、启用双矩编码策略在解空间中搜索个体时，需要根据解空间的维度进行编码，所述的编码是将条件属性直接与搜索个体的位置维度形成映射，当信息系统论域对象超过4000、维度规模超过23时，每3个属性对应于一个编码单元，这样，在维度上表现为1位，位置的取值范围为0~7的整数；C、搜索初始化为不失一般性，假定约简的定义域为[0,r]，即解空间最大取值为r，最小取值为0，解空间维度为d，如果步骤B中采用的是一位编码表示法，那么r＝1；如果步骤B中采用的是缩位编码表示法，那么r=7；利用n个搜索个体所形成的种群在解空间进行并行搜索，令搜索个体的最大速度v<sub>max</sub>=r；时间步t=0时，对n个搜索个体的进行随机初始化，即第i个搜索个体的第j维的位置p<sub>ij</sub>＝Rand(0,r)和第i个搜索个体的第j维的速度v<sub>ij</sub>＝Rand(-v<sub>max</sub>,v<sub>max</sub>)；式中，r为定义域，t为时间步；D、计算结束判据若满足预定最大迭代次数或10次迭代结果无改善，则输出结果p和f(p)并结束计算；否则，转步骤E；式中，p为搜索个体所组成的群中最好的个体状态，<img file="FDA00001657206400013.GIF" wi="71" he="68" />是第i个搜索个体从t=0开始迭代到当前最好的状态，f(p)是搜索个体所组成的群中最好的个体状态所确定的适应值；E、计算搜索个体的适应值采用粗糙集正区判别，如果POS'<sub>E</sub>＝U′<sub>pos</sub>，则适应值为对应条件属性个数；如果POS'<sub>E</sub>≠U′<sub>pos</sub>，则适应值惩罚为条件属性总数；F、最优保存令t＝t+1，实施最优保存策略，即：<maths num="0002"><![CDATA[<math><mrow><msubsup><mi>p</mi><mi>i</mi><mo>#</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mrow><mn>1</mn><mo>≤</mo><mi>i</mi><mo>≤</mo><mi>n</mi></mrow></munder><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><msubsup><mi>p</mi><mi>i</mi><mo>#</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><msup><mi>p</mi><mo></mo></msup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mrow><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mrow><mn>1</mn><mo>≤</mo><mi>i</mi><mo>≤</mo><mi>n</mi></mrow></munder><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><msup><mi>p</mi><mo></mo></msup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>p</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><mo>·</mo><mo>·</mo><mo>·</mo><mo>,</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mrow></math>]]></maths>G、状态转移联合操作引入搜索个体所组成的群体优势动态地搜索，针对每个搜索个体的每一维度根据公式(4)、(5)和(6)执行状态转移联合操作：<maths num="0004"><![CDATA[<math><mrow><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>wv</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><msub><mi>c</mi><mn>1</mn></msub><msub><mi>r</mi><mn>1</mn></msub><mrow><mo>(</mo><msubsup><mi>p</mi><mi>ij</mi><mo>#</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mi>p</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo><mo>+</mo><msub><mi>c</mi><mn>2</mn></msub><msub><mi>r</mi><mn>2</mn></msub><mrow><mo>(</mo><msubsup><mi>p</mi><mi>j</mi><mo>*</mo></msubsup><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mi>p</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msub><mi>p</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mi>ifρ</mi><mo><</mo><mi>sig</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>otherwise</mi><mo>.</mo></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中，<maths num="0006"><![CDATA[<math><mrow><mi>sig</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>v</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths>转步骤D。
地址	116026 辽宁省大连市高新园区凌海路1号