发明名称 |
对网页中数据的信息属性进行识别的方法和装置 |
摘要 |
本发明公开了一种对网页中数据的信息属性进行识别的方法和装置,其方法包括:获取第一网页中数据的html标签,根据预先建立的html标签与信息属性的关联关系,识别第一网页中第一数据的信息属性;对于根据html标签与信息属性的关联关系无法识别信息属性的第一网页中的第二数据,计算第二数据相对于各个信息属性的权重相似度,根据权重相似度识别第二数据的信息属性。本发明提供的对网页中数据的信息属性进行识别的方法和装置,能够基于html标签与信息属性的关联关系以及数据与信息属性的权重相似度,自动识别数据的信息属性,避免人工标记属性,大幅提升了识别效率和准确率。 |
申请公布号 |
CN104021185A |
申请公布日期 |
2014.09.03 |
申请号 |
CN201410258236.5 |
申请日期 |
2014.06.11 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
徐锐波;付赟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市浩天知识产权代理事务所 11276 |
代理人 |
宋菲;刘云贵 |
主权项 |
一种对网页中数据的信息属性进行识别的方法,其包括:获取第一网页中数据的html标签,根据预先建立的html标签与信息属性的关联关系,识别所述第一网页中第一数据的信息属性;对于根据所述html标签与信息属性的关联关系无法识别信息属性的所述第一网页中的第二数据,计算所述第二数据相对于各个所述信息属性的权重相似度,根据所述权重相似度识别所述第二数据的信息属性。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |