发明名称 |
一种基于lucene全文检索的中文分词方法 |
摘要 |
本发明公开了一种基于lucene全文检索的中文分词方法,将字典以每行一个词的形式存储在数据库中;将数据库中的字典以树的形式缓存在服务器中;输入需要分词的文本信息;文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;输出分词结果。该方法使用户可以从海量模糊数据中,提取有用信息加以详细研究和概括总结,方便用户进行语义分析和数据分析,从而及时发现营销服务中的问题,提高电网营销服务水平。 |
申请公布号 |
CN105279150A |
申请公布日期 |
2016.01.27 |
申请号 |
CN201510704461.1 |
申请日期 |
2015.10.27 |
申请人 |
江苏电力信息技术有限公司;江苏省电力公司 |
发明人 |
王成现;王全强;郝萍 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
南京汇盛专利商标事务所(普通合伙) 32238 |
代理人 |
陈扬 |
主权项 |
一种基于lucene全文检索的中文分词方法,其特征在于该方法具体步骤如下:1)将字典以每行一个词的形式存储在数据库中;2)将数据库中的字典以树的形式缓存在服务器中;3)输入需要分词的文本信息;4)文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;5)输出分词结果。 |
地址 |
210024 江苏省南京市鼓楼区广州路189号民防大厦 |