发明名称 计算机新词学方法与系统
摘要 计算机新词学方法,包括子词记录程序、第一删除程序以及第二删除程序。子词记录程序将记录在无词集的至少一无词部分分解成至少一子词,并将所得到的子词记录于子词集中,无词部分是指于一计算机可读取的文件中,任何相邻单字均无法构成计算机可辨识的词汇的部分。第一删除程序分别计算各子词出现次数,将出现次数小于预定值的子词自子词集中删除。第二删除程序自子词集中选不同的第一子词与第二子词,当第一子词含于第二子词中,第一子词的出现次数不大于第二子词时,将第一子词自子词集删除,以由子词集中产生计算机可辨识的新词。
申请公布号 CN1128404C 申请公布日期 2003.11.19
申请号 CN00132955.3 申请日期 2000.11.16
申请人 意蓝科技股份有限公司 发明人 杨立伟
分类号 G06F9/46 主分类号 G06F9/46
代理机构 北京市柳沈律师事务所 代理人 黄敏
主权项 1.一种计算机新词学习方法,包含以下步骤:一词辨识步骤,是对一文件进行词辨识处理;一无词部分记录步骤,是当该文件中具有至少一无词部分时,将该无词部分记录于该无词集中,其中该无词部分是指于该文件中,任何相邻单字均无法构成计算机可辨识的词汇的部分;一子词记录步骤,是将记录在一无词集的至少一无词部分分解成至少一子词,并将该子词记录于一子词集中;一第一删除步骤,是分别计算各该等子词的出现次数,并将出现次数小于一预定值的子词自该子词集中删除;一第二删除步骤,是自该子词集中依序选取不相同的一第一子词与一第二子词,当该第一子词被包含于该第二子词中,且该第一子词的出现次数不大于该第二子词时,将该第一子词自该子词集删除;一判断步骤,是判断该子词集是否为空集,并当该子词集为空集时,结束该计算机新词学习方法的流程;一第三删除步骤,是在该第二删除步骤之后,还将该子词集中出现次数最多的子词以外的子词删除,籍以由该子词集中产生计算机可辨识的新词;一无词部分分割步骤,包括:将包含该新词的无词部分自该无词集移除;当包含该新词的无词部分中,位于该新词之前的单字数量为两个以上时,将该无词部分中位于该新词之前的部分视为另一无词部分,并将其加入至该无词集中;且当包含该新词的无词部分中,位于该新词之后的单字数量为两个以上时,将该无词部分中位于该新词之后的部分视为另一无词部分,并将其加入至该无词集中;以及一子词集清空步骤,是清空该子词集并回到该子词记录步骤。
地址 台湾省台北市