发明名称 |
一种用户的生活圈提取方法及系统 |
摘要 |
本发明公开一种用户的生活圈提取方法及系统,方法包括:获取多个用于进行训练的切分训练地址,采用条件随机场模型进行训练,得到地址切分训练模型;获取多个用于进行训练的标识训练地址,采用条件随机场模型进行训练,得到地址标识训练模型;获取至少一个所述用户的实际地址,将所述实际地址进行切分得到实际最小切分结果,输入所述地址切分训练模型,得到实际成词类型标注,将所述实际最小切分结果重新组合为生活圈名称;从所述实际最小切分结果中选取实际敏感词,输入所述地址标识训练模型,得到实际生活圈类型标识;每个所述实际地址生成包括所述生活圈名称及实际生活圈类型标识的生活圈。本发明准确地识别出用户的地址的生活圈的名称和类型。 |
申请公布号 |
CN104598573A |
申请公布日期 |
2015.05.06 |
申请号 |
CN201510016140.2 |
申请日期 |
2015.01.13 |
申请人 |
北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
发明人 |
邵佳帅;牟川;邢志峰 |
分类号 |
G06F17/30(2006.01)I;G06Q30/02(2012.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京邦信阳专利商标代理有限公司 11012 |
代理人 |
金玺 |
主权项 |
一种用户的生活圈提取方法,其特征在于,包括:地址切分训练步骤,包括:获取多个用于进行训练的切分训练地址,对所述切分训练地址进行切分得到切分最小训练结果,获取切分训练地址集,所述切分训练地址集包括所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注,获取切分特征模板,所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征,将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训练,得到地址切分训练模型;地址标识训练步骤,包括:获取多个用于进行训练的标识训练地址,对所述标识训练地址进行切分得到标识最小训练结果,从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词,获取标识训练地址集,所述标识训练地址集包括训练敏感词以及用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识,获取标识特征模板,所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征,将所述标识训练地址集和所述标识特征模板采用条件随机场模型进行训练,得到地址标识训练模型;实际地址获取步骤,包括:获取至少一个所述用户的实际地址,将所述实际地址进行切分得到实际最小切分结果;实际地址切分步骤,包括:将所述实际最小切分结果输入所述地址切分训练模型,得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注,根据所述实际最小切分结果的实际成词类型标注,将所述实际最小切分结果重新组合为生活圈名称;实际地址标识步骤,包括:从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词,将所述实际敏感词输入所述地址标识训练模型,得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识;生活圈提取步骤,包括:对每个所述实际地址生成包括所述生活圈名称及对相应的实际敏感词的实际生活圈类型标识的生活圈。 |
地址 |
100080 北京市海淀区杏石口路65号西杉创意园西区11C楼东段1-4层西段1-4层 |