发明名称 |
一种文本特征提取系统和方法 |
摘要 |
本发明公开了一种文本特征提取系统和方法。该方法包括:将已分好m个类别的文档内容进行分词处理得到多个特征词;计算文档的词频参数,所述参数包括每个类别的文档数量N<sub>i</sub>、包含各个特征词的文档数量N<sub>t</sub>、总文档数N<sub>total</sub>和每个类别中包含各个特征词的文档数N<sub>i,t</sub>;根据词频参数并行计算每个特征词属于各个类别的特征值;对每个特征词的m个类别的特征值进行并行累加计算;根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。本发明通过并行运算能够提高海量文本特征的提取速度、效率高。 |
申请公布号 |
CN105488022A |
申请公布日期 |
2016.04.13 |
申请号 |
CN201410491458.1 |
申请日期 |
2014.09.24 |
申请人 |
中国电信股份有限公司 |
发明人 |
陶彩霞;谢晓军;陈康;张青;高智衡;陈翀;关迎晖;刘春;向勇;吴旭 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
中国国际贸易促进委员会专利商标事务所 11038 |
代理人 |
曾晖 |
主权项 |
一种文本特征提取系统,其特征在于,包括:分词模块,用于将已分好m个类别的文档内容进行分词处理得到多个特征词;参数计算模块,用于计算文档的词频参数,所述参数包括每个类别的文档数量N<sub>i</sub>、包含各个特征词的文档数量N<sub>t</sub>、总文档数N<sub>total</sub>和每个类别中包含各个特征词的文档数N<sub>i,t</sub>;特征值计算模块,用于根据参数计算模块计算的词频参数并行计算每个特征词属于各个类别的特征值;累加计算模块,用于对每个特征词的m个类别的特征值进行并行累加计算;特征提取模块,用于根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。 |
地址 |
100033 北京市西城区金融大街31号 |