发明名称 |
一种描述词筛选方法及装置 |
摘要 |
本申请公开了一种描述词筛选方法及装置,包括:针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词,并确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值;在针对该多个业务对象中的每个业务对象均进行上述统计之后,根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。采用本申请实施例提供的方案,提高了对业务对象的描述词确定的准确性。 |
申请公布号 |
CN103870446B |
申请公布日期 |
2016.12.28 |
申请号 |
CN201210551720.8 |
申请日期 |
2012.12.18 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
侯磊;李军 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
郭润湘 |
主权项 |
一种描述词筛选方法,其特征在于,包括:针对多个业务对象中的每个业务对象,执行如下步骤A和步骤B:步骤A:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;步骤B:确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;在针对所述多个业务对象中的每个业务对象,执行步骤A和步骤B之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典,其中,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确。 |
地址 |
英属开曼群岛大开曼岛资本大厦一座四层847号邮箱 |