发明名称 | 一种短信分类的方法及装置 | ||
摘要 | 本发明公开一种短信分类的方法及装置,涉及通信网络技术领域,可以解决现有技术中短信分类的精确度低的问题。本发明实施例通过提取原始短信样本中出现的所有非重复的关键词,组成短信类库训练的词典;确定在同一短信集合的每个短信中,词典中的每个关键词对应的TF-IDF;将同一短信集合中的每个关键词对应的TF-IDF划分为至少三个区间;为每个短信集合生成短信类库,进而根据短信类库对待分类短信进行分类。本发明实施例提供的方案适于短信分类时采用。 | ||
申请公布号 | CN105260467A | 申请公布日期 | 2016.01.20 |
申请号 | CN201510674401.X | 申请日期 | 2015.10.16 |
申请人 | 中国联合网络通信集团有限公司 | 发明人 | 李浩;罗云彬;王伟华;冯丽芳 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京中博世达专利商标代理有限公司 11274 | 代理人 | 申健 |
主权项 | 一种短信分类的方法,其特征在于,包括:提取用于类库训练的原始短信样本中出现的所有非重复的关键词,组成所述短信类库训练的词典,所述原始短信样本中包括至少两个类别的短信,每个类别的短信组成一个短信集合;确定在同一短信集合的每个短信中,所述词典中的每个关键词对应的TF‑IDF;将同一短信集合中的每个关键词对应的词频TF‑关键度IDF划分为至少三个区间;为每个短信集合生成短信类库,所述短信类库中包括短信类库所属类别的概率,以及对应存储的关键词与关键词位于每个区间中的概率,所述短信类库所属类别的概率为所述短信类库对应的短信集合在原始短信样本中的占比;根据所述短信类库对待分类短信进行分类。 | ||
地址 | 100033 北京市西城区金融大街21号 |