发明名称 |
一种新闻内容敏感词过滤方法及系统 |
摘要 |
本发明提供一种新闻内容敏感词过滤方法及系统,所述方法包括:S1、对获取的新闻文本进行预处理;S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。本发明通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定,以确定过滤到的敏感词是否具有负面信息,从而在过滤负面新闻的同时,不会将打击负面信息的正面新闻过滤掉,提高了新闻内容敏感词过滤的可靠性。 |
申请公布号 |
CN106055541A |
申请公布日期 |
2016.10.26 |
申请号 |
CN201610496504.6 |
申请日期 |
2016.06.29 |
申请人 |
清华大学 |
发明人 |
张新钰;刘聪;吴新刚 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
李相雨 |
主权项 |
一种新闻内容敏感词过滤方法,其特征在于,所述方法包括:S1、对获取的新闻文本进行预处理;S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。 |
地址 |
100084 北京市海淀区清华园北京100084-82信箱 |