一种文本特征提取方法和装置,申请号CN201210419624.8-传众专利搜索

发明名称	一种文本特征提取方法和装置
摘要	本申请公开了一种文本特征提取方法和装置。该方法包括：对于特征词库中的特征词F<sub>i</sub>，根据样本库中包含所述特征词F<sub>i</sub>的样本中该特征词F<sub>i</sub>的出现次数以及包含该特征词F<sub>i</sub>的样本所具有的标签，确定该特征词F<sub>i</sub>与标签库中的每个标签之间的互信息；对目标文档进行分词，获得所述目标文档中出现的所有特征词；基于目标文档中的每个特征词与每个标签之间的互信息，确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重；根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征。应用本申请能够提高提取文本特征的准确度。
申请公布号	CN103793385A	申请公布日期	2014.05.14
申请号	CN201210419624.8	申请日期	2012.10.29
申请人	深圳市世纪光速信息技术有限公司	发明人	邹维;尹华彬;周畅;杨俊松;宫建涛;吴振宇;宁合军
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京德琦知识产权代理有限公司 11018	代理人	张玉波;宋志强
主权项	一种文本特征提取方法，其特征在于，该方法包括：对于特征词库中的特征词F<sub>i</sub>，根据预先建立的样本库中包含所述特征词F<sub>i</sub>的样本中该特征词F<sub>i</sub>的出现次数以及包含该特征词F<sub>i</sub>的样本所具有的标签，确定该特征词F<sub>i</sub>与标签库中的每个标签之间的互信息；对目标文档进行分词，获得所述目标文档中出现的所有特征词；基于目标文档中的每个特征词与每个标签之间的互信息，确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重；根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
地址	518057 广东省深圳市南山区高新科技园科技中一路腾讯大厦16层