发明名称 数据处理方法和数据处理设备
摘要 公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。
申请公布号 CN103514192B 申请公布日期 2017.03.01
申请号 CN201210212254.0 申请日期 2012.06.21
申请人 富士通株式会社 发明人 张姝;孟遥;夏迎炬;于浩
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 朱胜;李春晖
主权项 一种数据处理方法,包括:微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合;预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息;关系特征获取步骤,用于基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,用于利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性,其中,所述相关性确定步骤进一步包括:标注子步骤,用于分别利用所述第一分类器和所述第二分类器对所述目标集合中的每条微博进行标注;种子添加子步骤,用于根据预定规则,将所述多条微博中的、所述第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从所述目标集合移除该微博,其中所述预设的种子集合是预先标注好的多条微博的集合;训练子步骤,用于利用添加了所述新种子的种子集合,分别根据所述种子集合中的各条微博的第一关系特征和第二关系特征对所述第一分类器和所述第二分类器进行训练;迭代子步骤,用于利用添加了所述新种子的种子集合迭代执行所述标注子步骤、所述种子添加子步骤以及所述训练子步骤中的处理,直到达到预定指标为止;以及输出子步骤,用于基于最终的标注结果,输出表示所述多条微博中的各条微博与所述实体之间的相关性的结果。
地址 日本神奈川县