发明名称 从多个网页中抽取对象和网页的方法和设备
摘要 本发明提供了一种从多个网页中抽取对象和网页的方法和设备,所述方法包含以下步骤:识别多个网页的候选属性值对;对于每个网页,针对该网页内的候选属性值对构造页内属性值图;对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;对于多个网页构造网页图;计算每个候选属性值对和每个网页的分数;以及选择对象和网页。
申请公布号 CN102768661B 申请公布日期 2014.12.17
申请号 CN201110115052.X 申请日期 2011.05.05
申请人 株式会社理光 发明人 孙军;谢宣松;姜珊珊;赵利军;郑继川
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 黄小临
主权项 一种从多个网页中抽取对象和网页的方法,包含以下步骤:识别多个网页的候选属性值对;对于每个网页,针对该网页内的候选属性值对构造页内属性值图;对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;对于多个网页构造网页图;计算每个候选属性值对和每个网页的分数;以及选择对象和网页,其中,所述计算每个候选属性值对和每个网页的分数的步骤包括:基于所述页内属性值图、页间属性值图和网页图,使用跨图分数传播过程来计算每个候选属性值对的分数;以及基于所述网页图和网页内的属性值对,使用跨图分数传播过程来计算每个网页的分数,并且其中,所述选择对象和网页的步骤包括:选择分数最大的预定数目的属性值对和网页作为抽取结果。
地址 日本东京都