发明名称 一种基于多维度综合词库的分词方法
摘要 本发明一种基于多维度综合词库的构建方法,选择数据源,并进行使用量统计;根据约束条件选择关键词;为关键词创建多维的维护字段;根据共现关系,获得原始关键词的同义词、以及英文关键词复数的单数形式,完善词库内容;制定中心关键词识别规则,找出原始关键词中包含的中心关键词。本发明同时公开了一种基于多维度综合词库的搜索分词方法和中心关键词识别方法。在本发明通过构建一个具有多重维度的综合词库,在词库中采用语义识别技术,识别商品的中心关键词,从而使得匹配有较好的基础。本发明综合运用字符串匹配分词方法以及基于统计、词库的分词方法,结合自动和人工的方式同时参与词库的维护升级,提高分词准确性。
申请公布号 CN103942347A 申请公布日期 2014.07.23
申请号 CN201410212388.1 申请日期 2014.05.19
申请人 焦点科技股份有限公司 发明人 李仁勇
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 张苏沛
主权项 一种基于多维度综合词库的构建方法,其特征在于,包括:步骤一、选择数据源,并进行使用量统计;在电子商务平台的搜索日志中,选择用户在一段时间内所使用的搜索关键词,对每日每位用户的搜索关键词进行去重,然后统计每个搜索关键词的每日的用户使用量,将一段时间内搜索关键词的每日的用户使用量进行累加,统计出搜索关键词一段时间内的用户使用量,该用户使用量代表了当前搜索关键词的热点分布;在电子商务平台的商品关键词信息作为数据源,并对同一个供应商的商品关键词进行去重,然后统计有多少供应商在描述商品的过程中使用了该商品关键词,有多少商品使用了该商品关键词,供应商描述商品时使用的关键词越多,表示该商品关键词越热门,竞争程度越激烈;使用某商品关键词的商品越多,表示销售该商品的商家竞争越激烈;步骤二、根据约束条件选择关键词;经过使用量统计,将产生大量关键词的候选集合,对这些候选关键词数据,选择符合一定约束条件的关键词进入词库;步骤三、为关键词创建多维的维护字段;在待维护的关键词选定的基础上,为这些关键词创建待维护的字段,并根据这些字段创建的原则对应把该词库按一定格式标示;步骤四、根据共现关系,获得原始关键词的同义词、以及英文关键词复数的单数形式,完善词库内容;通过每个关键词与其它关键词之间的共现次数,选择共现次数较高的关键词作为同义词,以及关键词复数的单数形式;步骤五、制定中心关键词识别规则,找出原始关键词中包含的中心关键词;针对电子商务行业销售商品的特点,除了通过上述过程构建出电子商务领域词库,以便在分词过程中利用该词库进行分词以外;针对电子商务买卖的是可销售的物品时,提出了一种识别商品中心关键词的一种方法,并将该识别出来的中心关键词作为分词结果的一部分,通过在识别出的中心关键词前加上标志以区分普通的分词结果。
地址 210061 江苏省南京市高新区星火路软件大厦A座12F