发明名称 基于海量自然文本的自动词组提取技术
摘要 本发明涉及一种用于汉字输入法的自动词组提取技术。当输入一组输入码ABCDEF之后,该技术先从预先储备的海量自然文本中检索到符合输入码A的汉字,再查表得到其后一字对应的输入码X,如果X=B,则继续将后续汉字的输入码分别与CDEF比较,直至完成。最终得到的一串输入码分别与ABCDEF匹配的汉字序列,即为自动提取出的词组。其意义在于,对于一个既有的海量自然文本,其中的任意连续汉字序列均可成为有效的词组。
申请公布号 CN101630198A 申请公布日期 2010.01.20
申请号 CN200810132524.0 申请日期 2008.07.16
申请人 侯伟华 发明人 侯伟华
分类号 G06F3/023(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F3/023(2006.01)I
代理机构 代理人
主权项 1.一种自动词组提取技术,其特征在于,在汉字输入的过程中,根据用户的输入码,从预先准备的自然文本中自动提取出所期望的词组,这些词组都不需要预先预先特别定义。
地址 100831北京市三里河路11号