发明名称 |
无监督消息聚类 |
摘要 |
无监督聚类可用于将微博或其他短长度消息组织到消息簇中。消息可与现有的簇进行比较以确定相似度得分。如果至少一个相似度得分大于阈值,则可以将消息添加到现有的消息簇。如果消息与现有的簇不相似,则可以将该消息与准则进行比较以开始一个新的消息簇。 |
申请公布号 |
CN102693273B |
申请公布日期 |
2016.12.21 |
申请号 |
CN201210071795.6 |
申请日期 |
2012.03.19 |
申请人 |
微软技术许可有限责任公司 |
发明人 |
K.Y.金;段镭;S.钟 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
永新专利商标代理有限公司 72002 |
代理人 |
王英 |
主权项 |
一种用于对消息进行聚类的方法,包括:接收多个消息,每个消息包含250个或更少字符;解析每个消息中的字符以形成包含根据消息解析规则来一起考虑的一个或多个字符的字符串,所述消息解析规则包括通过一字符来分开每个包含一个或多个字符的字符串,每个包含一起考虑的一个或多个字符的字符串包括一标记;形成所述多个消息的消息标记向量,消息标记向量具有对应于消息中的每个标记的元素;过滤所解析的消息来丢弃所述多个消息中的至少一个消息;相对于一个或多个消息簇为所过滤的多个消息计算相似度得分,消息簇具有对应于该消息簇中的代表数量的标记的簇标记向量,所述相似度得分基于所述消息标记向量和所述簇标记向量,无需相对于消息长度对消息标记向量进行规范化而计算相似度得分;根据至少一个消息的相似度得分大于相似度阈值将所述至少一个消息添加到消息簇;以及为包含所添加消息的所述消息簇更新所述簇标记向量。 |
地址 |
美国华盛顿州 |