计算机新词学方法与系统,申请号CN00132955.3-传众专利搜索

发明名称	计算机新词学方法与系统
摘要	计算机新词学方法，包括子词记录程序、第一删除程序以及第二删除程序。子词记录程序将记录在无词集的至少一无词部分分解成至少一子词，并将所得到的子词记录于子词集中，无词部分是指于一计算机可读取的文件中，任何相邻单字均无法构成计算机可辨识的词汇的部分。第一删除程序分别计算各子词出现次数，将出现次数小于预定值的子词自子词集中删除。第二删除程序自子词集中选不同的第一子词与第二子词，当第一子词含于第二子词中，第一子词的出现次数不大于第二子词时，将第一子词自子词集删除，以由子词集中产生计算机可辨识的新词。
申请公布号	CN1128404C	申请公布日期	2003.11.19
申请号	CN00132955.3	申请日期	2000.11.16
申请人	意蓝科技股份有限公司	发明人	杨立伟
分类号	G06F9/46	主分类号	G06F9/46
代理机构	北京市柳沈律师事务所	代理人	黄敏
主权项	1.一种计算机新词学习方法，包含以下步骤：一词辨识步骤，是对一文件进行词辨识处理；一无词部分记录步骤，是当该文件中具有至少一无词部分时，将该无词部分记录于该无词集中，其中该无词部分是指于该文件中，任何相邻单字均无法构成计算机可辨识的词汇的部分；一子词记录步骤，是将记录在一无词集的至少一无词部分分解成至少一子词，并将该子词记录于一子词集中；一第一删除步骤，是分别计算各该等子词的出现次数，并将出现次数小于一预定值的子词自该子词集中删除；一第二删除步骤，是自该子词集中依序选取不相同的一第一子词与一第二子词，当该第一子词被包含于该第二子词中，且该第一子词的出现次数不大于该第二子词时，将该第一子词自该子词集删除；一判断步骤，是判断该子词集是否为空集，并当该子词集为空集时，结束该计算机新词学习方法的流程；一第三删除步骤，是在该第二删除步骤之后，还将该子词集中出现次数最多的子词以外的子词删除，籍以由该子词集中产生计算机可辨识的新词；一无词部分分割步骤，包括：将包含该新词的无词部分自该无词集移除；当包含该新词的无词部分中，位于该新词之前的单字数量为两个以上时，将该无词部分中位于该新词之前的部分视为另一无词部分，并将其加入至该无词集中；且当包含该新词的无词部分中，位于该新词之后的单字数量为两个以上时，将该无词部分中位于该新词之后的部分视为另一无词部分，并将其加入至该无词集中；以及一子词集清空步骤，是清空该子词集并回到该子词记录步骤。
地址	台湾省台北市