发明名称 一种基于微博的广告推荐方法及系统
摘要 本发明适用于数据挖掘领域,提供了一种基于微博的广告推荐方法及系统。所述方法包括:读取微博数据;初始化微博数据,获得微博文本词项集合;删除微博文本词项集合的停用词,获得微博文本原始特征词项集合;将微博文本原始特征词项集合与特征词项字典进行映射,判断微博文本原始特征词项集合中的词项是否出现在特征词项字典中,并计算出现的词项的tf-idf值,作为词项的特征值;判断特征词项字典的词项是否出现在微博文本原始特征词项集合中,并将没有出现的词项的特征值标记为0;将计算得到的所有特征值组成的特征向量自动分类到预先划分的类别;以自动分类的结果为依据,向用户推荐广告。本发明实施例推荐的广告也更准确,效果也更好。
申请公布号 CN103617230A 申请公布日期 2014.03.05
申请号 CN201310608335.7 申请日期 2013.11.26
申请人 中国科学院深圳先进技术研究院 发明人 章昉;刘明君;赵中英
分类号 G06F17/30(2006.01)I;G06Q30/02(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳中一专利商标事务所 44237 代理人 张全文
主权项 一种基于微博的广告推荐方法,其特征在于,所述方法包括下述步骤:读取用户的微博数据;初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词;删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的词频‑逆向文件频率tf‑idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0;使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中;以自动分类的结果为依据,向读取微博数据的用户推荐广告。
地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号