发明名称 一种互联网段落级话题识别系统
摘要 本发明公开了一种互联网段落级话题识别系统,运用话题识别与语义维度分析、对特定文本集自动话题抽取和定义、识别文本与特定话题之间的关联强度、识别文本之间在话题层面的交叉、相似等关系特定的技术手段,因此具有可与操作人员交互并纠偏、在线离线相结合,计算速度快;支持多个数据库、文件系统、互联网等多种分析目标等功能。
申请公布号 CN104317785A 申请公布日期 2015.01.28
申请号 CN201410537821.9 申请日期 2014.10.13
申请人 安徽华贞信息科技有限公司 发明人 贾岩
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 合肥市长远专利代理事务所(普通合伙) 34119 代理人 程笃庆;黄乐瑜
主权项 一种互联网段落级话题识别系统,其特征在于,包括:网络蜘蛛模块,用于根据情报搜集与分析目标,利用网络蜘蛛,采集各类信息,并丢入存储系统;文本段落切片模块,用于对文本切割,使以文本文档形式的文本数据转化为统一格式的段落;语义分析与标注模块,用于实现段落分词后,通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,通过这种词汇向语义概念的转换,将段落从文本转变为概念组合体;维度识别模块,用于实现段落的维度匹配、标注、权重计算;LSA分析模块,用于进行潜在语义分析,分解后得到三个矩阵SVD,用S、D矩阵作为计算段落间关联度计算、话题见关联度、维度独立性计算;语义化文本描述模块,用于在各个语义段落做完段落级语义分析之后,对整个文本文档汇总语义信息和语义维度化描述该文档的模块;业务表现模块,是情报系统内核的Shell,用于将用户的情报需求逻辑表达给系统,生成执行脚本;另一方面,它根据执行脚本,调用情报系统的核心执行模块,以实现用户的情报收集与分析的需求;UI模块,根据用户功能定义调阅相关数据并以合适的形式展现给最终情报消费者。
地址 230000 安徽省合肥市高新区黄山路602号国家大学科技园A502