发明名称 |
信息挖掘方法和装置 |
摘要 |
本申请公开了信息挖掘方法和装置。所述方法的一具体实施方式包括:对获取的文本信息进行句子切分得到分句集合;根据预先设定的舆情词汇集合从所述分句集合中选取至少一个候选分句;基于领域词典对所述至少一个候选分句进行分词处理,并对分词处理后得到的各个词汇进行依存分析,得到至少一个候选词汇搭配对;根据所述舆情词汇集合从所述至少一个候选词汇搭配对中选取至少一个词汇搭配对,作为从所述文本信息中挖掘出的第一词汇搭配对集合。该实施方式实现了快速、精确的信息挖掘。 |
申请公布号 |
CN105574092A |
申请公布日期 |
2016.05.11 |
申请号 |
CN201510918337.5 |
申请日期 |
2015.12.10 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
张新展 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京英赛嘉华知识产权代理有限责任公司 11204 |
代理人 |
王达佐;马晓亚 |
主权项 |
一种信息挖掘方法,其特征在于,所述方法包括:对获取的文本信息进行句子切分得到分句集合;根据预先设定的舆情词汇集合从所述分句集合中选取至少一个候选分句;基于领域词典对所述至少一个候选分句进行分词处理,并对分词处理后得到的各个词汇进行依存分析,得到至少一个候选词汇搭配对;根据所述舆情词汇集合从所述至少一个候选词汇搭配对中选取至少一个词汇搭配对,作为从所述文本信息中挖掘出的第一词汇搭配对集合。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦三层 |