主权项 |
一种对移动设备用户进行个性化新闻推荐的方法,其特征在于,包括:通过网页爬虫从网络上实时抓取新闻数据,将抓取的新闻数据进行存储,对所述新闻数据进行聚类,将所述新闻数据划分为多个簇,具体的:首先利用LDA方法对每个新闻数据的标题和全文文本进行主题挖掘,提取出每个新闻的主题分布,并获取每个新闻的领域、标题和简介;从待分类的新闻数据集中任意选择k个新闻分别分配到k个簇中,并分别作为k个簇的初始中心;按照设定的相似度计算公式,计算所述新闻数据集中剩下的每个新闻分别与所述k个簇的初始中心点之间的相似度,将每个新闻分配到最大的相似度计算结果对应的簇中;所述相似度计算公式为:NewsSim(n1,n2) =w1*CateSim(n1,n2)+w2*TitleSim(n1,n2)+w3 *DesSim(n1,n2)其中n1、n2表示2个待计算相似度的新闻,NewsSim(n1,n2)表示n1、n2的相似度,CateSim(n1、n2)表示n1、n2的领域相似度,TitleSim(n1,n2)表示n1、n2的标题相似度,DesSim(n1、n2)表示n1、n2的简介相似度,w1、w2、w3表示三者权重,并且满足w1+w2+w3=1;更新每个簇的中心点,重新计算所述新闻数据集中剩下的每个新闻分别 与所述k个簇的中心点之间的相似度,将每个新闻分配到最大的相似度计算结果对应的簇中,一直到所述新闻数据集中所有的新闻数据都分配到所述k个簇中;且上述聚类算法应用在基于云计算的云平台上;根据移动设备用户的个性化配置信息中的新闻的主题分布和各个簇的新闻的主题分布之间的相似度,获取所述移动设备用户感兴趣的簇;根据所述移动设备用户的个性化配置信息中的新闻的主题分布、行为模式、新闻实体和所述移动设备用户感兴趣的簇中的各个新闻的主题分布、行为模式、新闻实体之间的相似度,获取所述移动设备用户感兴趣的新闻。 |