发明名称 | 基于社交网络的训练语料集的构建方法和装置 | ||
摘要 | 本发明公开了一种基于社交网络的训练语料集的构建方法和装置,所述方法包括:对于待构建的训练语料集所属的领域,获取社交网络中该领域的用户群体发布的文本内容;对于获取的每篇文本内容,对该篇文本内容进行分词,将分词后的各词语中与该领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与该领域的相关度;将与该领域的相关度大于预设的相关度阈值的文本内容,作为该领域的文本语料加入到该领域的训练语料集中。由于本发明得到的某个领域的训练语料集中的文本语料与该领域的相关度较高,因此,本发明可以提高社交网络中文本内容的分类准确度,并且可以节省人力。 | ||
申请公布号 | CN104035968A | 申请公布日期 | 2014.09.10 |
申请号 | CN201410213819.6 | 申请日期 | 2014.05.20 |
申请人 | 微梦创科网络科技(中国)有限公司 | 发明人 | 李金奎;谌贻荣 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京市京大律师事务所 11321 | 代理人 | 张璐;方晓明 |
主权项 | 一种基于社交网络的训练语料集的构建方法,其特征在于,包括:对于待构建的训练语料集所属的领域,获取所述社交网络中该领域的用户群体发布的文本内容;对于获取的每篇文本内容,对该篇文本内容进行分词,将分词后的各词语中与该领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与该领域的相关度;将与该领域的相关度大于预设的相关度阈值的文本内容,作为该领域的文本语料加入到该领域的训练语料集中。 | ||
地址 | 100080 北京市海淀区彩和坊路6号7-10层 |