发明名称 一种基于lucene全文检索的中文分词方法
摘要 本发明公开了一种基于lucene全文检索的中文分词方法,将字典以每行一个词的形式存储在数据库中;将数据库中的字典以树的形式缓存在服务器中;输入需要分词的文本信息;文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;输出分词结果。该方法使用户可以从海量模糊数据中,提取有用信息加以详细研究和概括总结,方便用户进行语义分析和数据分析,从而及时发现营销服务中的问题,提高电网营销服务水平。
申请公布号 CN105279150A 申请公布日期 2016.01.27
申请号 CN201510704461.1 申请日期 2015.10.27
申请人 江苏电力信息技术有限公司;江苏省电力公司 发明人 王成现;王全强;郝萍
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 南京汇盛专利商标事务所(普通合伙) 32238 代理人 陈扬
主权项 一种基于lucene全文检索的中文分词方法,其特征在于该方法具体步骤如下:1)将字典以每行一个词的形式存储在数据库中;2)将数据库中的字典以树的形式缓存在服务器中;3)输入需要分词的文本信息;4)文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;5)输出分词结果。
地址 210024 江苏省南京市鼓楼区广州路189号民防大厦