主权项 |
1.一种计算机新词学习方法,包含以下步骤:一词辨识步骤,是对一文件进行词辨识处理;一无词部分记录步骤,是当该文件中具有至少一无词部分时,将该无词部分记录于该无词集中,其中该无词部分是指于该文件中,任何相邻单字均无法构成计算机可辨识的词汇的部分;一子词记录步骤,是将记录在一无词集的至少一无词部分分解成至少一子词,并将该子词记录于一子词集中;一第一删除步骤,是分别计算各该等子词的出现次数,并将出现次数小于一预定值的子词自该子词集中删除;一第二删除步骤,是自该子词集中依序选取不相同的一第一子词与一第二子词,当该第一子词被包含于该第二子词中,且该第一子词的出现次数不大于该第二子词时,将该第一子词自该子词集删除;一判断步骤,是判断该子词集是否为空集,并当该子词集为空集时,结束该计算机新词学习方法的流程;一第三删除步骤,是在该第二删除步骤之后,还将该子词集中出现次数最多的子词以外的子词删除,籍以由该子词集中产生计算机可辨识的新词;一无词部分分割步骤,包括:将包含该新词的无词部分自该无词集移除;当包含该新词的无词部分中,位于该新词之前的单字数量为两个以上时,将该无词部分中位于该新词之前的部分视为另一无词部分,并将其加入至该无词集中;且当包含该新词的无词部分中,位于该新词之后的单字数量为两个以上时,将该无词部分中位于该新词之后的部分视为另一无词部分,并将其加入至该无词集中;以及一子词集清空步骤,是清空该子词集并回到该子词记录步骤。 |