发明名称 |
含有汉语的字符串的分词方法及在字符串中检索词的方法 |
摘要 |
本发明提供了一种含有汉语字符串的分词方法,包括:接收包含有汉语字符的字符串;对于每个字符,确定所述字符串中该字符的语义作用范围;对于每个字符,在其语义作用范围内,确定与该字符可匹配成词的其他字符并构成词。经过对每个字符的语义作用范围的界定,体现汉语作为非线性语言和其它线性语言之间区别。从而切分出的结果词汇可以更准确反应汉语字符中的语义划分关系。本发明还提供了一种在字符串中检索词的方法,包括:确定该字符串中包含待检索词的字符;确定该字符的语义作用范围内所记录的构成的词;确定与该待检词匹配的所记录的词。 |
申请公布号 |
CN101464855A |
申请公布日期 |
2009.06.24 |
申请号 |
CN200910000440.6 |
申请日期 |
2009.01.13 |
申请人 |
吴长林 |
发明人 |
吴长林;陈飔 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京华夏正合知识产权代理事务所 |
代理人 |
韩登营;张焕亮 |
主权项 |
1. 一种含有汉语的字符串的分词方法,其特征在于,包括:A、接收包含有汉语字符的字符串;B、对于每个字符,确定所述字符串中该字符的语义作用范围;C、对于每个字符,在其语义作用范围内,确定与该字符可匹配成词的其他字符并构成词。 |
地址 |
511495广东省广州市番禺区祈福新邨湖景居8街33号3楼 |