发明名称 一种基于双层分类模型的中文作者识别方法及其装置
摘要 本发明涉及一种基于双层分类模型的中文作者识别方法及其装置,属于信息安全领域。针对作者个数较多造成的识别准确率低下的问题,在作者识别模型中添加一个作者分组层,将每位作者表示成作者向量,使用聚类算法对作者进行分组;第二层为作者识别层,在该层提取依存关系、虚词、标点符号以及词性标记作为特征,在组内进行作者识别。使用本发明的方法或装置,可以有效解决作者个数较多而导致识别准确率下降的问题;同时,提出的基于主成分分析方法的特征降维和优化方法,可以解决高维特征向量中包含的噪声影响识别准确率的问题。本发明可以应用于文学作品的作者考证领域,也可以应用于版权保护等信息安全领域。
申请公布号 CN102880631A 申请公布日期 2013.01.16
申请号 CN201210231282.7 申请日期 2012.07.05
申请人 湖南大学 发明人 刘玉玲;万晶
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于双层分类模型的中文作者识别方法及其装置,利用双层分类作者识别模型,即在传统的作者识别层之前添加一个作者分组层:a. 在第一层作者分组层中提出一种基于词义的中文作者表示方法,将每位作者表示成对应的作者向量,使用聚类算法对作者进行分组,使得每一组中作者数目相对较少(一般不超过20个);b. 第二层为作者识别层,根据作者分组层得到的结果,将自然语言处理中的依存语法关系作为句法层次的有效特征,同时结合已有的虚词、标点符号和词性频数构成一个大特征集对中文作品进行识别,对于大量特征产生的噪声所导致识别准确率下降的问题,利用主成分分析方法对特征集进行降维和优化,在组内进行作者识别,得到最终的识别结果。
地址 410082 湖南省长沙市岳麓区麓山南路1号