发明名称 |
个人主页的查找方法 |
摘要 |
本发明公开了一种个人主页的查找方法,包括以下步骤:在搜索引擎中输入关键信息获得搜索结果,采用最接近关键信息的搜索结果作为数据集;从数据集中抽取部分数据文本进行标注;对已经标注过的数据文本分为训练集和测试集;对训练集抽取训练集特征信息;对训练集特征信息进行建模,得到第一模型;对测试集抽取测试集特征信息;利用第一模型对测试集特征信息进行分析,得到预测结果;对预测结果进行判断;通过十折交叉验证进行迭代,选取最优模型;采用最优模型判断搜索结果是否为目标人物的个人主页。本发明具有如下优点:适应性较强,可通过在实际应用过程中收集整理训练样本,更新及扩充训练集,进而提高本方法的适用性及查找准确率。 |
申请公布号 |
CN105095400A |
申请公布日期 |
2015.11.25 |
申请号 |
CN201510394587.3 |
申请日期 |
2015.07.07 |
申请人 |
清华大学 |
发明人 |
唐杰;刘德兵;杨宏;袁慧 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
张大威 |
主权项 |
一种个人主页的查找方法,其特征在于,包括以下步骤:A:在搜索引擎中输入关键信息获得搜索结果,采用所述搜索结果中最接近所述关键信息的第一预设数量的搜索结果作为数据集;B:从所述数据集中抽取部分数据文本进行人工标注,用于区分是否为目标人物的个人主页;C:对已经标注过的所述数据文本分为第二预设数量的训练集和第三预设数量的测试集;D:对所述训练集抽取训练集特征信息;E:利用SVM对所述训练集特征信息进行建模,得到第一模型;F:对所述测试集抽取测试集特征信息;G:利用所述第一模型对所述测试集特征信息进行分析,得到预测结果;H:根据预设的个人主页判断规则对所述预测结果进行判断;I:采用十折交叉验证方法对步骤C至步骤H进行迭代,选取最优模型;J:采用所述最优模型判断所述搜索结果是否为目标人物的个人主页。 |
地址 |
100084 北京市海淀区82信箱 |