发明名称 一种文本特征提取方法和装置
摘要 本申请公开了一种文本特征提取方法和装置。该方法包括:对于特征词库中的特征词F<sub>i</sub>,根据样本库中包含所述特征词F<sub>i</sub>的样本中该特征词F<sub>i</sub>的出现次数以及包含该特征词F<sub>i</sub>的样本所具有的标签,确定该特征词F<sub>i</sub>与标签库中的每个标签之间的互信息;对目标文档进行分词,获得所述目标文档中出现的所有特征词;基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。应用本申请能够提高提取文本特征的准确度。
申请公布号 CN103793385A 申请公布日期 2014.05.14
申请号 CN201210419624.8 申请日期 2012.10.29
申请人 深圳市世纪光速信息技术有限公司 发明人 邹维;尹华彬;周畅;杨俊松;宫建涛;吴振宇;宁合军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 张玉波;宋志强
主权项 一种文本特征提取方法,其特征在于,该方法包括:对于特征词库中的特征词F<sub>i</sub>,根据预先建立的样本库中包含所述特征词F<sub>i</sub>的样本中该特征词F<sub>i</sub>的出现次数以及包含该特征词F<sub>i</sub>的样本所具有的标签,确定该特征词F<sub>i</sub>与标签库中的每个标签之间的互信息;对目标文档进行分词,获得所述目标文档中出现的所有特征词;基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
地址 518057 广东省深圳市南山区高新科技园科技中一路腾讯大厦16层