一种面向知识管理的自定义知识分类方法,申请号CN201410003685.5-传众专利搜索

发明名称	一种面向知识管理的自定义知识分类方法
摘要	本发明属于计算机应用技术领域，涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中，在缺乏标注文本集合的条件下，实现用户自定义分类管理知识的问题，提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题，通过用《同义词词林》扩展用户自定义关键词，利用Wu-Manber多模式匹配算法来快速匹配关键词，根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件，且速度快的特点。
申请公布号	CN103793474A	申请公布日期	2014.05.14
申请号	CN201410003685.5	申请日期	2014.01.04
申请人	北京理工大学	发明人	黄河燕;史树敏;陈振钊;冯冲;李侃
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	1.一种面向知识管理的自定义知识分类方法，其特征在于：步骤一、对知识管理系统中相关定义进行说明，具体如下：定义1：知识管理系统中每个具体分类称为子类，记为c；定义2：用户为每个子类制定的专属一系列词组称为子类关键词，记为keys，单个词记为key；关键词集和记为KEYS；定义3：通过《同义词词林》对子类关键词key<sub>i</sub>(i＝0,1,2…n)进行同义词扩展，得到key<sub>i</sub>(i＝0,1,2…n)的同义词集合E{key<sub>i</sub>}(i＝0,1,2…n)，所有子类关键词E{key<sub>i</sub>}(i＝0,1,2…n)的合并称为子类扩展关键词，记为E(keys)。其中，i表示关键的下标，n表示子类中关键词的个数；定义4：若干个包含关键词的子类组成一套完整的分类标准，称为一个类组，记为C；要求文档集合中的所有文档按不同类组进行分类，因此在一个类组中文档集合中每个文档只能属于至多一个子类，但是可以属于其他类组中的子类；定义5：在给定文档集合D{d<sub>1</sub>,d<sub>2</sub>…d<sub>i</sub>…d<sub>m</sub>}，其中，i代表文档下标，m代表文档集合总数量；步骤二、用户自定义一个类组C{c<sub>1</sub>,c<sub>2</sub>…c<sub>i</sub>…c<sub>n</sub>}，其中，i表示子类的下标，n表示类组包含的子类数；步骤三、为每个子类c<sub>i</sub>添加自定义的子类关键词keys<sub>i</sub>；步骤四、用《同义词词林》对每个子类关键词keys<sub>i</sub>进行扩展，得到子类c<sub>i</sub>扩展子类关键词E{keys<sub>i</sub>}；步骤五、把类组C所有子类c<sub>i</sub>的扩展子类关键词E{keys<sub>i</sub>}合并为关键词集合<img file="FDA0000453189880000011.GIF" wi="1550" he="109" />其中<img file="FDA0000453189880000012.GIF" wi="281" he="88" />代表关键词集合中下标为h的关键词项，K<sub>h</sub>代表关键词，其后面()中的c表示关键词K<sub>h</sub>包含在子类c中，s<sub>h</sub>代表包含关键词K<sub>h</sub>的子类数；t代表关键词集合元素数；步骤六、应用Wu-Manber多模式匹配算法统计一组关键词keys在文档d中出现次数；首先要对模式串的集合进行预处理，预处理阶段将建立三个表格：SHIFT表，HASH表，SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离，HASH表用来存储匹配窗口内尾字符散列值相同的模式串，PREFIX表用来存储匹配窗口内首字符散列值相同的模式串；步骤七、把关键词集合KEYS看做多模式匹配中的模式串，把文档d<sub>i</sub>看做多模式匹配中的文本串，利用Wu-Manber多模式匹配算法进行关键词匹配，记录匹配成功的关键词来自的子类c<sub>i</sub>和匹配的位置，每个文档包括标题Title、摘要Abstract和正文Text，统计每个扩展子类关键词E{keys<sub>i</sub>}在文档d<sub>i</sub>各个位置中出现的次数，分别记为count<sub>i</sub>{Title}、count<sub>i</sub>{Abstract}和count<sub>i</sub>{Text}；步骤八、确定文档的类别：假设在一个文档d中关键词命中率最高的子类为文档最终所属的类别。<maths num="0001"><![CDATA[<math><mrow><mover><mi>c</mi><mo>^</mo></mover><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mrow><mn>1</mn><mo><</mo><mi>i</mi><mo><</mo><mi>n</mi></mrow></munder><mo>{</mo><msub><mi>Count</mi><mi>i</mi></msub><mo>}</mo></mrow></math>]]></maths>其中，<img file="FDA0000453189880000022.GIF" wi="39" he="61" />代表最佳分类标号，i代表自定义子类的下标，Count<sub>i</sub>表示子类c<sub>i</sub>在文档d中的命中率；最终子类c<sub>i</sub>在一个文档d中的命中率定义如下式：Count<sub>i</sub>＝α·count<sub>i</sub>{Title}+β·count<sub>i</sub>{Abstract}+γ·count<sub>i</sub>{Text}其中α,β,γ(α＞β＞λ)分别为关键词出现在文档d标题、摘要和正文的权重，count<sub>i</sub>{Title}、count<sub>i</sub>{Abstract}、count<sub>i</sub>{Text}分别代表文档d标题、摘要和正文出现关键词的个数。
地址	100081 北京市海淀区中关村南大街5号