发明名称 词典降维方法及装置、信息分类方法及装置
摘要 本发明公开了一种词典降维方法及装置、信息分类方法及装置。该词典降维方法包括:对从问答日志中获取的语料进行预处理,得到文本数据;对文本数据进行分词处理,得到多个语料词语;对语料词语进行过滤处理,得到包括多个关键词的词典;根据问答日志统计语料涉及到的信息分类,计算词典中每个关键词的信息熵,将信息熵小于信息熵阈值的关键词从词典中删除,其中,信息熵表示该关键词在各信息分类中出现的概率。借助于本发明的技术方案,能够快速的过滤对分类无用的词语对词典进行降维,降维后的词典对于分类结果具有很好的准确率。
申请公布号 CN105512104A 申请公布日期 2016.04.20
申请号 CN201510874528.6 申请日期 2015.12.02
申请人 上海智臻智能网络科技股份有限公司 发明人 张昊;朱频频
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 工业和信息化部电子专利中心 11010 代理人 秦莹
主权项 一种词典降维方法,其特征在于,包括:对从问答日志中获取的语料进行预处理,得到文本数据;对所述文本数据进行分词处理,得到多个语料词语;对所述语料词语进行过滤处理,得到包括多个关键词的词典;根据所述问答日志统计所述语料涉及到的信息分类,计算所述词典中每个关键词的信息熵,将信息熵小于信息熵阈值的关键词从所述词典中删除,其中,所述信息熵表示该关键词在各信息分类中出现的概率。
地址 201803 上海市嘉定区金沙江西路1555弄398号7层