发明名称 一种电子商务字典自动生成方法
摘要 本发明公开了一种电子商务字典自动生成方法,包括以下步骤:步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;步骤2:预处理;步骤3:递进穷举;步骤4:词频统计;步骤5:归并处理;步骤6:冗余过滤;步骤7:正则式过滤;步骤8;步骤9:低频词剔除;步骤10:特征词补偿。主要优点包括:一是生成字典的速度快,采用机器学、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高,由于采用了递进穷举方法对文本进行分词,因此在分词过程中很少会漏掉词条。三是生成的字典更加精炼,结合纠偏、冗余过滤、正则过滤等处理算法,消除字典中的冗余和错误,最终生成的电子商务字典更加精炼。
申请公布号 CN102902757B 申请公布日期 2015.07.29
申请号 CN201210359050.X 申请日期 2012.09.25
申请人 姚明东 发明人 姚明东;范英磊;陈浩
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种电子商务字典自动生成方法,其特征在于,包括以下步骤:步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;步骤2:预处理:对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理;步骤3:递进穷举:采用递进穷举方法按合理长度穷举各种分词组合,同时累计各种组合出现的频率,形成完整的包含所有可能组合的粗糙字典;步骤4:词频统计:对字典中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1;步骤5:归并处理:按规则五进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串;步骤6:冗余过滤:对粗糙字典计算出现频率,按照规则一至规则三过滤掉因穷举所带来的冗余词条;步骤7:正则式过滤:结合规则四对开头和结尾为特定词汇的词条剔除;步骤8:潜在词补偿:对步骤5的结果依据规则六进行处理;步骤9:低频词剔除:基于某一个出现频率的阈值过滤词典,对于出现次数小于阈值的直接删除;步骤10:特征词补偿:对一些电子商务领域中的特征词做补偿处理,长度过长的品牌名称领域特征词做补偿处理;其中,规则一为:对有公共前缀或公共后缀且长度相同的潜在词过滤掉重复提取的公共前缀或公共后缀;规则二为:基于统计次数的等频重复子串过滤:把所有出现次数相同的潜在词,用最长的一个去跟其它的比较,其它所有是最长潜在词的子串的潜在词,从潜在词词典中删除;规则三为:基于统计次数的相近频率重复子串过滤;规则四为:基于无效前缀/后缀集合的潜在词过滤;规则五为:基于切分边界错误识别的切分纠错;合并的条件:一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串,同时删除被合并的潜在词;公共子串的长度要求不小于两个字;与词典中其它潜在词进行比较,删除所有与得到的长字符串出现频率相同的子串;规则六为:基于分词匹配的有效词补偿:1)、基于步骤6处理之后的潜在词词典做最长匹配分词处理,如果切分的组合已经作为一个潜在词出现在字典中,则继续向后扫描字符串,对于没有出现在潜在词字典中的长度不小于2的最长切分组合加入到潜在词词典中,频率与字符串的频率相同;2)、或者直到扫描到字符串结尾,都没有匹配的潜在词,则将整个字符串作为一个潜在词加入字典。
地址 410082 湖南省长沙市岳麓区麓山名园D2-301