发明名称 |
产品特征标签的提取方法及装置 |
摘要 |
本发明提供一种产品特征标签的提取方法及装置,包括有以下步骤:S1、抓取产品类型的所有评论并预设主题;S2、将同一主题的评论内容合并为一文本;S3、抽取出现次数最多的若干词语,以构成一常用词集合;S4、生成TF-IDF矩阵;S5、从TF-IDF矩阵的每一行抽取值最大的若干元素对应的词语;S6、将从TF-IDF矩阵中抽取所得的全部词语集合在一起形成关键词集合;S7、从单独产品的全部评论中抽取包含有关键词集合中的词语的单独产品的特征标签。通过预设主题后再抽取词语组成常用词集合,进而通过TF-IDF矩阵整理出关键词集合,优选出评论中的短语作为特征标签,降低了噪声干扰,使得产品的特征标签更为准确。 |
申请公布号 |
CN104951430A |
申请公布日期 |
2015.09.30 |
申请号 |
CN201410119711.0 |
申请日期 |
2014.03.27 |
申请人 |
携程计算机技术(上海)有限公司 |
发明人 |
严紫丹 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
上海弼兴律师事务所 31283 |
代理人 |
薛琦;王婧荷 |
主权项 |
一种产品特征标签的提取方法,其特征在于,其包括有以下步骤;S1、抓取一产品类型的所有评论,所述评论预设有若干个主题;S2、将同一主题的全部所述评论的内容合并为一文本;S3、从每一所述文本抽取出现次数最多的若干词语,以构成一常用词集合;S4、生成一TF‑IDF矩阵,所述TF‑IDF矩阵的行对应每一所述文本,列对应全部所述文本中的每一词语,所述TF‑IDF矩阵中的每一元素的取值根据以下公式计算:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>e</mi><mo>=</mo><mfrac><mi>n</mi><mi>k</mi></mfrac><mo>×</mo><mi>log</mi><mrow><mo>(</mo><mfrac><mi>a</mi><mi>b</mi></mfrac><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000483401310000011.GIF" wi="402" he="155" /></maths>其中,e为TF‑IDF矩阵中的元素的取值,n为该元素对应的所述词语在对应的所述文本中的出现次数,k为该元素对应的所述文本中的总词语数,a为所述TF‑IDF矩阵的行数,b为所述TF‑IDF矩阵中该元素对应的词语数不为0的行数;S5、从所述TF‑IDF矩阵的每一行中抽取值最大的若干元素对应的所述词语;S6、将从所述TF‑IDF矩阵中抽取所得的全部所述词语集合在一起形成一关键词集合;S7、从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作为所述单独产品的特征标签,所述短语为文本中由分隔符分隔形成的文字段。 |
地址 |
200335 上海市长宁区福泉路99号携程网络技术大楼 |