发明名称 命名实体的识别方法
摘要 本申请公开了一种命名实体的识别方法,先对待处理文本中的特殊词进行识别,接下来对待处理文本中的型号实体进行识别,并用预设的数字串将待处理文本中被识别出为型号实体的特殊词替换,然后在此基础上进行商品实体、商品分类实体、品牌实体、商品属性名实体以及商品属性值实体等实体的识别。采用本发明可以不受无关关键字的影响,实现对商品和商品属性等实体的准确识别。
申请公布号 CN103631948B 申请公布日期 2017.01.11
申请号 CN201310674046.7 申请日期 2013.12.11
申请人 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 发明人 张永成;罗欢;何泉昊;张喜;姜文
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 王一斌;王琦
主权项 一种命名实体的识别方法,其特征在于,包括:a、将用户在当前会话中输入的语句作为待处理文本,对所述待处理文本中符合预设规则的数字和超链接进行识别,并将所述待处理文本中的超链接替换为预设的超链接替代符号;b、对所述待处理文本中的特殊词进行识别,并将连续的仅以空格间隔的所有特殊词标记为一个特殊词串,所述特殊词包括英文字符、数字和除句号和逗号之外的符号;c、分别以每个所述特殊词为关键词,搜索系统的商品品牌和型号数据库,对所述待处理文本中的型号实体进行识别,并用预设的数字串将所述待处理文本中被识别出为型号实体的特殊词替换;d、如果当前会话非首次会话,则根据上一次会话的命名实体识别过程中确定的初始命名实体,对所述待处理文本中的商品属性名实体和商品属性值实体进行识别;所述初始命名实体为商品实体或商品分类实体;e、对步骤c中得到的所述待处理文本进行分词;并以分词后得到的每个词为索引,查找系统的品牌和商品分类词典,对所述待处理文本中的品牌实体和商品分类实体进行识别;f、按照预设的关键词规则,根据当前识别出的所述实体,确定当前用于商品搜索的关键词;使用所述关键词,搜索预设的商品数据库,并从所搜索的商品中,选择出预设W个商品;根据最大公共子串原则,对所述W个商品进行筛选,将筛选到的每个商品标记为商品实体,并记录所述商品实体的商品编号;g、根据当前已识别出的所述商品实体和所述商品分类实体,查询系统的商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体;h、如果当前存在与所有所述实体无关的特殊词,则利用所述无关的特殊词,搜索所述商品数据库和所述商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体;i、对当前已识别出的所有实体进行筛选,确定出本次会话的所有命名实体;如果所确定出的本次会话的所有命名实体中包含有商品实体,则将在所述待处理文本中最后出现的商品实体作为用于下一次会话识别的初始命名实体;否则,将在所述待处理文本中最后出现的商品分类实体作为用于下一次会话识别的初始命名实体。
地址 100080 北京市海淀区苏州街20号2号楼2层