发明名称 |
词典降维方法及装置、信息分类方法及装置 |
摘要 |
本发明公开了一种词典降维方法及装置、信息分类方法及装置。该词典降维方法包括:对从问答日志中获取的语料进行预处理,得到文本数据;对文本数据进行分词处理,得到多个语料词语;对语料词语进行过滤处理,得到包括多个关键词的词典;根据问答日志统计语料涉及到的信息分类,计算词典中每个关键词的信息熵,将信息熵小于信息熵阈值的关键词从词典中删除,其中,信息熵表示该关键词在各信息分类中出现的概率。借助于本发明的技术方案,能够快速的过滤对分类无用的词语对词典进行降维,降维后的词典对于分类结果具有很好的准确率。 |
申请公布号 |
CN105512104A |
申请公布日期 |
2016.04.20 |
申请号 |
CN201510874528.6 |
申请日期 |
2015.12.02 |
申请人 |
上海智臻智能网络科技股份有限公司 |
发明人 |
张昊;朱频频 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
工业和信息化部电子专利中心 11010 |
代理人 |
秦莹 |
主权项 |
一种词典降维方法,其特征在于,包括:对从问答日志中获取的语料进行预处理,得到文本数据;对所述文本数据进行分词处理,得到多个语料词语;对所述语料词语进行过滤处理,得到包括多个关键词的词典;根据所述问答日志统计所述语料涉及到的信息分类,计算所述词典中每个关键词的信息熵,将信息熵小于信息熵阈值的关键词从所述词典中删除,其中,所述信息熵表示该关键词在各信息分类中出现的概率。 |
地址 |
201803 上海市嘉定区金沙江西路1555弄398号7层 |