发明名称 一种分类语料库的构建方法、系统及具有该系统的服务器
摘要 本发明提供一种分类语料库的构建方法、系统及具有该系统的服务器,构建方法包括:获取待分类的目标数据,并根据实际需求获取类别描述数据;选取最大准确度对应的文本相似度计算方法;将待分类的目标数据归类到最大相似度对应的类别;将第一分类匹配度位于第一相似度范围内的目标数据填充至预设初级语料库;利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;将第二分类匹配度位于所述第二匹配度范围内的目标数据填充至预设初级语料库;直至填充后的预设初级语料库无法再扩大,将预设初级语料库确定为最终版语料库。本发明减少了创建语料库的成本、降低人工参与程度、缩短创建语料库的时间。
申请公布号 CN106202380A 申请公布日期 2016.12.07
申请号 CN201610536555.7 申请日期 2016.07.08
申请人 中国科学院上海高等研究院 发明人 徐浩煜;谷重阳;封松林;周晗;李明齐
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海光华专利事务所 31219 代理人 王再朝
主权项 一种分类语料库的构建方法,其特征在于,所述分类语料库的构建方法包括以下步骤:获取待分类的目标数据,并根据实际需求获取类别描述数据;计算待分类的目标数据与确定的类别描述数据之间的文本相似度以选取最大准确度所对应的文本相似度计算方法;采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据和确定的类别描述数据之间的相似度,根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别;对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中;利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;对上一步骤中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中;直至填充后的预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。
地址 201210 上海市浦东新区海科路99号