发明名称 一种文本智能提取标签的方法
摘要 本发明公开了一种文本智能提取标签的方法。该方法通过在内存中对文本字符串使用中文分词算法进行关键词拆分,然后根据词频、词长、词性等计算出词的权重,按词的权重进行倒序排序,取出指定数量的词作为结果输出。该方法的特点是,所有算法全部在内存中处理,算法设计简明、高效,在分析速度上得到了有效的保证。对于一段文本经过了分词、权重、组词、过滤、排序等一系列过程的加工后,在标签的准确性上达到了一定的效果。本发明可以进行算法的独立封装也可以进行组件封装,具有一定的通用性,可以应用于一切需求进行文本标签提取的产品中,在使用方面有一定的广泛性。
申请公布号 CN102289523A 申请公布日期 2011.12.21
申请号 CN201110279632.2 申请日期 2011.09.20
申请人 北京金和软件股份有限公司 发明人 李军锋;吕福军;李跃海
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京远大卓悦知识产权代理事务所(普通合伙) 11369 代理人 史霞
主权项 一种文本智能提取标签的方法,其特征在于,包括以下步骤:步骤一、接收待提取标签的文本字符串;步骤二、对所述文本字符串使用中文分词算法进行关键词拆分;步骤三、定义一个保存关键词的数据结构,里面包含词的多个特征属性,将步骤二中的每个关键词的各特征属性信息抽取出来,并进行数值化,形成属性值;步骤四、对词的各特征属性分别赋予权重值,通过权重值与属性值的乘积求和,计算出各关键词的权重值,排列权重值,建立一个临时的一级关键词字典;步骤五、将一级关键词字典里的每个关键词进行词间组合,对形成的组合词进行中文语法算法判断,如果符合中文语法,则存储到建立起的组合词字典中,如果不符合中文语法,则跳转到对下一个组合词进行判断,重复这一过程,直到完成所有关键词之间的组合方式;步骤六、将存储到组合词字典中的组合词的权重值设定为形成该组合词的关键词的权重值之和;步骤七、将组合词和关键词根据权重值的大小,联合排序;步骤八、按照权重值从大到小的顺序,取指定数量的组合词和/或关键词作为标签。
地址 100093 北京市海淀区上地软件园南路57号院科技楼
您可能感兴趣的专利