发明名称 |
通过分析文档的段落来选择该文档的标签 |
摘要 |
通过分析文档的段落来选择该文档的标签。在一个实施方式中,为文档指配标签包括访问该文档,其中该文档包括含有词语的文本单元。针对各文本单元执行以下步骤:文本单元的词语子集被选作候选标签、在所述候选标签之间建立关联性,以及根据所建立的关联性来选择特定候选标签以产生用于该文本单元的候选标签集。确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性。根据所确定的关联性,为该文档指配至少一个候选标签。 |
申请公布号 |
CN101408886A |
申请公布日期 |
2009.04.15 |
申请号 |
CN200810166181.X |
申请日期 |
2008.10.06 |
申请人 |
富士通株式会社 |
发明人 |
大卫·马尔维特;贾瓦哈拉·贾殷;斯特吉奥斯·斯特吉奥;亚历克斯·吉尔曼;B·托马斯·阿德勒;约翰·J·西多罗维奇;雅尼斯·拉布罗 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京三友知识产权代理有限公司 |
代理人 |
黄纶伟 |
主权项 |
1.一种方法,该方法包括以下步骤:访问储存在一个或更多个有形介质中的文档,该文档包括含有多个词语的多个文本单元,所述多个词语包括多个关键词;针对各文本单元执行以下步骤:在各文本单元的所述关键词之间建立关联性;以及根据所建立的关联性来选择一个或更多个关键词作为一个或更多个候选标签,以产生所述各文本单元的候选标签集;以及确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性;以及根据所确定的关联性来为所述文档指配至少一个候选标签。 |
地址 |
日本神奈川县川崎市 |