发明名称 含有汉语的字符串的分词方法及在字符串中检索词的方法
摘要 本发明提供了一种含有汉语字符串的分词方法,包括:接收包含有汉语字符的字符串;对于每个字符,确定所述字符串中该字符的语义作用范围;对于每个字符,在其语义作用范围内,确定与该字符可匹配成词的其他字符并构成词。经过对每个字符的语义作用范围的界定,体现汉语作为非线性语言和其它线性语言之间区别。从而切分出的结果词汇可以更准确反应汉语字符中的语义划分关系。本发明还提供了一种在字符串中检索词的方法,包括:确定该字符串中包含待检索词的字符;确定该字符的语义作用范围内所记录的构成的词;确定与该待检词匹配的所记录的词。
申请公布号 CN101464855A 申请公布日期 2009.06.24
申请号 CN200910000440.6 申请日期 2009.01.13
申请人 吴长林 发明人 吴长林;陈飔
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京华夏正合知识产权代理事务所 代理人 韩登营;张焕亮
主权项 1. 一种含有汉语的字符串的分词方法,其特征在于,包括:A、接收包含有汉语字符的字符串;B、对于每个字符,确定所述字符串中该字符的语义作用范围;C、对于每个字符,在其语义作用范围内,确定与该字符可匹配成词的其他字符并构成词。
地址 511495广东省广州市番禺区祈福新邨湖景居8街33号3楼