一种新词发现方法和系统,申请号CN200710175229.9-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种新词发现方法和系统
摘要	本发明公开了一种发现新词的方法，包括以下步骤：查找语料中所有出现频次大于一定阈值的字符串；统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语；若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值，则将该字符串作为新词输出；否则在搜索引擎网站对字符串进行精确搜索和模糊搜索，若精确搜索返回结果数量大于一定阈值，和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值，和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值，则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词，也能够发现在语料中出现频次较低的新词，同时新词发现的准确率较高。
申请公布号	CN101131705A	申请公布日期	2008.02.27
申请号	CN200710175229.9	申请日期	2007.09.27
申请人	中国科学院计算技术研究所	发明人	龚才春;黄玉兰
分类号	G06F17/30(2006.01)	主分类号	G06F17/30(2006.01)
代理机构	北京律诚同业知识产权代理有限公司	代理人	梁挥;陈振
主权项	1.一种新词发现方法，其特征在于，包括以下步骤：步骤A，获取语料中出现频次大于第一预设阈值的所有字符串；步骤B，确定符合预先设定规则的字符串；步骤C，对剩余的字符串，计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量；步骤D，将所述剩余的字符串中左右侧不同字符或词语数大于第二预设阈值的字符串，作为新词输出；步骤E，将剩下的字符串作为查询关键词，在搜索引擎中进行搜索，统计返回的搜索结果数量、以及搜索结果记录；步骤F，根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，判断并确定最终新词。
地址	100080北京市海淀区中关村科学院南路6号

您可能感兴趣的专利

FERRITIC STAINLESS STEEL HAVING EXCELLENT BRAZEABILITY

VIRTUAL WORLD PROCESSING DEVICE AND METHOD

一种工业计算机推杆插拔装置

金丝彩沙画及其金丝彩沙画工艺画板

带天然纹理的实木复合门

制备区域规则的聚-(3-取代的)噻吩、硒吩、噻唑和硒唑的方法

模具系统和操作所述系统的方法

用于烯烃聚合的催化剂组分以及由其所获得的催化剂

带有集成太阳能模块的屋顶波形瓦/屋顶水泥砖/立面构件

对来自费托反应的含水流股进行提纯的方法

用于女性保健的取代16,17-稠合的类固醇化合物

聚烯烃组合物

具有糖皮质激素活性的甾族[3，2-C]吡唑化合物的新酰胺衍生物

具有多重膜层的耐久性荧光制品

协同增效杀真菌混合物

具有遮蔽使用寿命指示器的盖的滤盒

细颗粒阳离子性聚合物水分散体、其制备方法及其用途

利用服务器存储模型来同步文件分区

提高微溶性杀虫剂的土壤迁移率的聚合物