基于搜索日志的中文人名自扩展识别方法,申请号CN201210539985.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于搜索日志的中文人名自扩展识别方法
摘要	本发明属于计算语言学的自然语言处理领域，公开了一种基于搜索日志的中文人名自扩展识别方法，该方法借助“姓氏驱动”人名识别思想，利用搜索日志查询串首字姓氏特点，挖掘种子人名；利用种子人名在搜索日志中生成候选人名模板集；根据候选人名模板在所对应查询串和整个查询日志频次变化趋势，筛选人名模板；根据人名模板生成候选人名；利用前向后向关键词匹配界定、筛选候选人名，获得人名集合；基于自扩展迭代思想，利用当前获得的人名集合作为下一次迭代过程的种子人名集，人名模板集中区分度最高的前n个模板作为下一次迭代的种子模板，由此挖掘出搜索日志中人名，利用搜索日志本身特点构建种子人名、生成人名模板，根据人名上下文在对应查询串及整个搜索日志查询串的变化趋势，过滤人名模板，降低了人名识别时的噪音信息，提高了搜索日志中人名识别率。
申请公布号	CN103870489A	申请公布日期	2014.06.18
申请号	CN201210539985.6	申请日期	2012.12.13
申请人	北京信息科技大学	发明人	吕学强;文彬
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	基于搜索日志的中文人名自扩展识别方法，其特征在于，包括：S11 确定目标语料集，也即将用于挖掘人名实体的所有查询日志中查询串集合Q；S12 构建种子人名集合C，；S13 根据种子人名集合C及其所在查询串集合Qc，生成候选人名模板集Mc；S14 利用人名模板在Qc和Q中匹配的查询串条数变化趋势，对人名模板进行筛选，选取适合人名识别的上下文信息，获得人名模板集Mc’；S15 在查询串集合Q中匹配人名模板集Mc’中的模板，生成候选人名集CN；S16 对候选人名进行筛选，去除一些干扰的噪音信息，得到可信度较高的人名集合N；S17 利用人名集合N更新种子人名集合C，迭代上述S12至S16这5个步骤，直到获取的人名的可信度达到一定阈值。
地址	100192 北京市海淀区清河小营东路12号北京信息科技大学

您可能感兴趣的专利

回转窑中直接还原含有铁氧化物物料生产海绵铁的方法

高速预分频器

DENTAL ANCHORING DEVICE.

ROLLER BUSHING.

METHOD OF LOW TEMPERATURE BLEACHING WITH REDUCED AMOUNTS OF CHLORINE REQUIRING REDUCED BLEACHING INTERVALS

An improved patient support structure and a multi-outlet variable flow gas valve.

显微物镜波面象差测定装置

便桶的清洗水供给方法及装置

多层大跨度双拱架结构体系

MANUFACTURE OF SEMICONDUCTOR DEVICE

BREADER FOR COATING EDIBLE FOOD PRODUCTS WITH FRESH BREAD CRUMBS

LIQUID CRYSTAL COMPOSITION

BORE HOLE SCANNER

A METHOD OF PRODUCING AN ENZYMATICALLY ACTIVE POLYPEPTIDE ANALOG OF HUMAN CU/ZN SOD

APPARATUS AND METHOD FOR PRODUCING STERILE SLUSH AND HEATED STERILE LIQUID.

CONDUCTIVE THERMOPLASTIC RESIN COMPOSITION

An automatic control system for a numerically controlled router.

SWITCHING APPARATUS FOR MOVABLE PARTS OF A RAILWAY POINT

Composting apparatus.