发明名称 | 一种问题分类方法及系统 | ||
摘要 | 本发明公开了一种问题分类方法及系统,包括:获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文本已提供问题类型,第二训练文本未提供问题类型;利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型;确定第一训练文本和第二训练文本为训练文本,将训练文本进行分词处理,得到分别与每个训练文本对应的训练词组;利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器;利用最大熵分类器对待测词组进行分类,得到与待测词组对应的待测文本的问题类型。由此,不需确定大量训练文本的问题类型,无需耗费大量人力,且对待测词组进行分类得到的结果准确率较高。 | ||
申请公布号 | CN105045924A | 申请公布日期 | 2015.11.11 |
申请号 | CN201510531001.3 | 申请日期 | 2015.08.26 |
申请人 | 苏州大学张家港工业技术研究院 | 发明人 | 李寿山;张栋;周国栋 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京集佳知识产权代理有限公司 11227 | 代理人 | 罗满 |
主权项 | 一种问题分类方法,其特征在于,包括:获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文本已提供其问题类型,所述第二训练文本未提供其问题类型;利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型;确定所述第一训练文本和所述第二训练文本为训练文本,将所述训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组;利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器;利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组对应的待测文本的问题类型。 | ||
地址 | 215600 江苏省苏州市张家港市长泾路10号 |