发明名称 | 一种新词发现方法和系统 | ||
摘要 | 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值,和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发现在语料中出现频次较低的新词,同时新词发现的准确率较高。 | ||
申请公布号 | CN101131705A | 申请公布日期 | 2008.02.27 |
申请号 | CN200710175229.9 | 申请日期 | 2007.09.27 |
申请人 | 中国科学院计算技术研究所 | 发明人 | 龚才春;黄玉兰 |
分类号 | G06F17/30(2006.01) | 主分类号 | G06F17/30(2006.01) |
代理机构 | 北京律诚同业知识产权代理有限公司 | 代理人 | 梁挥;陈振 |
主权项 | 1.一种新词发现方法,其特征在于,包括以下步骤:步骤A,获取语料中出现频次大于第一预设阈值的所有字符串;步骤B,确定符合预先设定规则的字符串;步骤C,对剩余的字符串,计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量;步骤D,将所述剩余的字符串中左右侧不同字符或词语数大于第二预设阈值的字符串,作为新词输出;步骤E,将剩下的字符串作为查询关键词,在搜索引擎中进行搜索,统计返回的搜索结果数量、以及搜索结果记录;步骤F,根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结果,判断并确定最终新词。 | ||
地址 | 100080北京市海淀区中关村科学院南路6号 |