发明名称 |
基于试题关键字相似性的试题库中的试题去重方法 |
摘要 |
本发明涉及一种基于试题关键字相似性的试题库中的试题去重方法,首先对试题进行中文分词得到的分词结;判断分词结是否为关键词,若是则将其加入试题与关键字的关系数据库;然后采用内积计算试题与关键字的关系数据库中任意两个待检测试题之间的相似度;其次判断两个待检测试题是否为非相似试题,并将相似的试题加入重复试题关系数据库;再次根据相似度条件,从重复试题关系数据库中查找出重复试题列表;最后管理人员通过看重复试题列表进行重复试题确认,人为判断试题是否重复。本发明对试题的题干、试题候选项和试题答案进行中文分词,针对切词后的分词进行分析,从而深入分析试题,以便去重更加精准。因此,本发明可以广泛用于试题去重领域。 |
申请公布号 |
CN105824798A |
申请公布日期 |
2016.08.03 |
申请号 |
CN201610117476.2 |
申请日期 |
2016.03.03 |
申请人 |
云南电网有限责任公司教育培训评价中心 |
发明人 |
江龙;李泽河;曹俊豪;张德刚;王达达 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种基于试题关键字相似性的试题库中的试题去重方法,它包括以下步骤:1)采用最大正向分词匹配算法对试题库中的试题进行中文分词,中文分词包括对试题库中试题的题干、试题候选项和试题答案进行中文分词,得到的分词称之为分词结;判断分词结是否为试题关键词库中的关键词,若是试题关键词库中的关键词,则将其加入试题与关键字的关系数据库,且试题与关键字的关系数据库包括关键字的出现频率、关键字权值以及关键字出现的顺序;其中,试题关键字库中预先设定试题关键字;2)采用内积计算试题与关键字的关系数据库中任意两个待检测试题之间的相似度;3)将以内积表示的相似度与重复试题阈值相比较,若不大于预先设定的重复试题阈值,则执行步骤4);若大于预先设定的重复试题阈值,则执行步骤5);4)两个待检测试题为非相似试题,则不做处理;5)两个待检测试题为相似试题,并将相似的试题加入重复试题关系数据库;6)根据相似度条件,从重复试题关系数据库中查找出满足条件的重复试题列表;7)管理人员通过看重复试题列表进行重复试题确认,人为判断试题是否重复。 |
地址 |
650011 云南省昆明市官渡区拓东路73号 |