发明名称 一种科技文本挑选方法及装置
摘要 本发明提出了一种科技文本挑选方法及装置,属于计算机文本分析挖掘领域。本发明实施例装置及方法包括:选取的特征样本集;对样本集中文本进行特征评分的计算模块,包括基于文本的客观评分模块、文本的模糊评分模块以及文本与样本集间关联度评分模块,其中基于文本的模糊评分模块包括文本专业词汇模糊评分、文本关键句式判别与评分以及文本语言客观度评分;通过建立以各项评分与文本是否被标注为可选的训练集,训练得到的神经网络模型筛选的模型;对于待挑选文本,挑选方法为,文本先进行各项特征评分,再经已训练好的神经网络模型筛选。本发明还可用于其他各种具有一定特征的专业文档的评价挑选或评价挑选系统的建立。
申请公布号 CN106294330A 申请公布日期 2017.01.04
申请号 CN201510233967.9 申请日期 2015.05.11
申请人 清华大学 发明人 马晨光;李文强;王昊;马少平;杨德林
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种科技文本挑选方法及装置,其特征在于:挑选装置包括根据特定类别的科技文本需要,选定的特征样本集、专业词库、语料库;挑选装置包括对文本进行分析以及特征评分的计算模块,包含基于文本的客观评分模块、文本的模糊评分模块以及文本与样本集间关联度评分模块;其中基于文本的客观评分模块包括文本的长度、语句长度方差、词汇信息熵、无效词所占比例加权求和获得评分,权值由样本集通过熵值取权法给定;基于文本的模糊评分模块包括文本所含专业词汇模糊评分、文本关键句式的判别与评分、文本语言客观度评分;基于文本的客观评分模块与文本的模糊评分模块单独运行于另一处理单元;挑选装置包括通过建立以各项评分与文本是否被标注为可选的训练集,训练得到的BP神经网络筛选模型;挑选方法包括通过挑选装置评分模块对待挑选文本进行特征评分,再经已训练好的BP神经网络筛选模型进行筛选。
地址 100084 北京市海淀区清华园