发明名称 |
基于海量自然文本的自动词组提取技术 |
摘要 |
本发明涉及一种用于汉字输入法的自动词组提取技术。当输入一组输入码ABCDEF之后,该技术先从预先储备的海量自然文本中检索到符合输入码A的汉字,再查表得到其后一字对应的输入码X,如果X=B,则继续将后续汉字的输入码分别与CDEF比较,直至完成。最终得到的一串输入码分别与ABCDEF匹配的汉字序列,即为自动提取出的词组。其意义在于,对于一个既有的海量自然文本,其中的任意连续汉字序列均可成为有效的词组。 |
申请公布号 |
CN101630198A |
申请公布日期 |
2010.01.20 |
申请号 |
CN200810132524.0 |
申请日期 |
2008.07.16 |
申请人 |
侯伟华 |
发明人 |
侯伟华 |
分类号 |
G06F3/023(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F3/023(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
1.一种自动词组提取技术,其特征在于,在汉字输入的过程中,根据用户的输入码,从预先准备的自然文本中自动提取出所期望的词组,这些词组都不需要预先预先特别定义。 |
地址 |
100831北京市三里河路11号 |