发明名称 一种网络评论精华文本的获取方法和装置
摘要 一种网络评论文本精华文本的获取方法和装置,所述方法包括步骤:S1、提取评论文本中的关键字;S2、结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;S4、计算评论文本中的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高;S5、计算评论文本相似度的价值,其所依据的原则是后发表的评论文本与历史评论文本文本相似度越高价值越低;S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的标点符号价值以及步骤S5中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;S7、在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。本发明通过使用计算机程序和算法自动获取精华文本,降低网络管理成本、提高文本获取精度。
申请公布号 CN102682120B 申请公布日期 2015.06.03
申请号 CN201210151075.0 申请日期 2012.05.15
申请人 合一网络技术(北京)有限公司 发明人 陈学文;张宇峰;姚健;潘柏宇;卢述奇
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种网络评论精华文本的获取方法,其特征在于包括如下步骤:S1、提取评论文本中的关键字;S2、结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论库中的价值计算关键字在该主题下的价值;S4、使用统计方法并对标点符号的分布进行处理以计算评论文本中的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论价值越高;S5、采用Dice系数计算评论文本相似度的价值,其所依据的原则是后发表的评论与历史评论文本相似度越高价值越低;S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的标点符号价值以及步骤S5中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;S7、在获取多条评论文本的得分之后,取得分超过一定阈值的评论作为精华评论文本。
地址 100080 北京市海淀区海淀大街8号中钢国际广场A座5层A、C区