发明名称 | 从多个网页中抽取对象和网页的方法和设备 | ||
摘要 | 本发明提供了一种从多个网页中抽取对象和网页的方法和设备,所述方法包含以下步骤:识别多个网页的候选属性值对;对于每个网页,针对该网页内的候选属性值对构造页内属性值图;对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;对于多个网页构造网页图;计算每个候选属性值对和每个网页的分数;以及选择对象和网页。 | ||
申请公布号 | CN102768661B | 申请公布日期 | 2014.12.17 |
申请号 | CN201110115052.X | 申请日期 | 2011.05.05 |
申请人 | 株式会社理光 | 发明人 | 孙军;谢宣松;姜珊珊;赵利军;郑继川 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京市柳沈律师事务所 11105 | 代理人 | 黄小临 |
主权项 | 一种从多个网页中抽取对象和网页的方法,包含以下步骤:识别多个网页的候选属性值对;对于每个网页,针对该网页内的候选属性值对构造页内属性值图;对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;对于多个网页构造网页图;计算每个候选属性值对和每个网页的分数;以及选择对象和网页,其中,所述计算每个候选属性值对和每个网页的分数的步骤包括:基于所述页内属性值图、页间属性值图和网页图,使用跨图分数传播过程来计算每个候选属性值对的分数;以及基于所述网页图和网页内的属性值对,使用跨图分数传播过程来计算每个网页的分数,并且其中,所述选择对象和网页的步骤包括:选择分数最大的预定数目的属性值对和网页作为抽取结果。 | ||
地址 | 日本东京都 |