发明名称 一种分类短信文本内容的方法
摘要 本发明涉及一种分类短信文本内容的方法,包括下列方面:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;对所有短信分词的结果进行词汇统计,筛选出一批高频词,然后通过人工筛选得到短信文本特征词;对短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量,进行短信文本特征词匹配和欧式距离计算实现分类。本发明能有效挖掘出短信本身的特性同时又能够避免传统一些向量化文本产生的信息丢失,同时能够减少计算量。
申请公布号 CN105389345A 申请公布日期 2016.03.09
申请号 CN201510697003.X 申请日期 2015.10.26
申请人 天津大学 发明人 章宦记;王建;庞彦伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 程毓英
主权项 一种分类短信文本内容的方法,包括下列方面:分词模块:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;筛选高频词模块:对所有短信分词的结果进行词汇统计,对统计的结果进行倒排即词频越高的排在越前面,设定阈值筛选出一批高频词,然后通过人工筛选去掉一些非该领域高频词,剩下的高频词即为该领域短信文本特征词;阈值模块:对筛选出的短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量。通过短信文本特征词匹配,如果新的短信中出现短信文本特征词,将短信向量对应该短信文本特征词的位置标记为1否则为0;将短信映射成的向量与短信文本特征词的向量进行欧式距离计算,如果距离小于某阈值,则认为该短信属于某一类别短信。
地址 300072 天津市南开区卫津路92号