发明名称 |
一种文本特征提取方法和装置 |
摘要 |
本申请公开了一种文本特征提取方法和装置。该方法包括:对于特征词库中的特征词F<sub>i</sub>,根据样本库中包含所述特征词F<sub>i</sub>的样本中该特征词F<sub>i</sub>的出现次数以及包含该特征词F<sub>i</sub>的样本所具有的标签,确定该特征词F<sub>i</sub>与标签库中的每个标签之间的互信息;对目标文档进行分词,获得所述目标文档中出现的所有特征词;基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。应用本申请能够提高提取文本特征的准确度。 |
申请公布号 |
CN103793385A |
申请公布日期 |
2014.05.14 |
申请号 |
CN201210419624.8 |
申请日期 |
2012.10.29 |
申请人 |
深圳市世纪光速信息技术有限公司 |
发明人 |
邹维;尹华彬;周畅;杨俊松;宫建涛;吴振宇;宁合军 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京德琦知识产权代理有限公司 11018 |
代理人 |
张玉波;宋志强 |
主权项 |
一种文本特征提取方法,其特征在于,该方法包括:对于特征词库中的特征词F<sub>i</sub>,根据预先建立的样本库中包含所述特征词F<sub>i</sub>的样本中该特征词F<sub>i</sub>的出现次数以及包含该特征词F<sub>i</sub>的样本所具有的标签,确定该特征词F<sub>i</sub>与标签库中的每个标签之间的互信息;对目标文档进行分词,获得所述目标文档中出现的所有特征词;基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。 |
地址 |
518057 广东省深圳市南山区高新科技园科技中一路腾讯大厦16层 |