发明名称 一种商品属性名值对抽取方法及系统
摘要 本申请公开了一种商品属性名值对抽取方法,通过将待处理网页切分成多个网页块并提取空间和内容特征,筛选出携带有商品属性信息的网页块,确定出网页块中为属性值的文本片段,然后当判断任意一个属性值与其它所有属性值之间的间隔文本片段的个数为偶数时,剔除该属性值,直至最后剩余的属性值两两之间的间隔文本片段数目均为奇数,然后从剩余的属性值中随机选择一个,将其相邻的前一个文本片段确定为该属性值对应的属性名,将相邻的后一个文本片段确定为下一个名值对的属性名,迭代该过程直到抽取出全部的属性名值对。通过本申请的方法,可以准确的抽取出网页中的商品属性名值对。
申请公布号 CN103744920A 申请公布日期 2014.04.23
申请号 CN201310738593.7 申请日期 2013.12.27
申请人 苏州大学 发明人 洪宇;严为绒;姚建民
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 常亮
主权项 一种商品属性名值对抽取方法,其特征在于,包括: 获取待处理网页; 将所述待处理网页切分成多个网页块; 提取每个所述网页块的空间特征和内容特征; 根据所述空间特征和所述内容特征,筛选出携带有商品属性信息的网页块; 判断所述携带有商品属性信息的网页块中的每一个文本片段中的数字和指定单位词占该文本片段的比例是否大于第一阈值,所述指定单位词为预设单位词表中的单位词; 当判断结果为大于第一阈值时,则将该文本片段确定为一个属性值; 统计所有的属性值两两之间所间隔的文本片段的数目; 依次判断任意一个属性值与其它所有属性值之间所间隔的文本片段的数目是否均为偶数; 如果是,则剔除该属性值,重复该过程直到最后剩余的属性值两两之间均满足间隔文本片段数目为奇数; 从所述剩余的属性值中随机选择一个,将该属性值相邻的前一个文本片段确定为该属性值对应的属性名,将该属性值相邻的后一个文本片段确定为下一个属性名值对的属性名,迭代该过程,直至抽取出所有的属性名值对。 
地址 215123 江苏省苏州市工业园区仁爱路199号