发明名称 从网页中抽取对象标识符的系统及方法
摘要 公开了从网页中抽取对象标识符的系统和方法。所述系统包括:标识符识别模块,用于从网页中识别标识符块,所述网页包含表示对象标识符的各种信息的对象标识符相关信息,且标识符块是包含对象标识符相关信息的一段文本;标识符片段抽取模块,与标识符识别模块连接,用于根据标识符识别模块识别出的标识符块中每个单词的位置信息和内容信息的至少其中之一,来从标识符块中移除无用信息,以得到标识符片段;以及标识符单元标注模块,与标识符片段抽取模块连接,用于将标识符片段抽取模块抽取出的标识符片段标注为适于构建对象数据库的对象标识符。
申请公布号 CN102722489A 申请公布日期 2012.10.10
申请号 CN201110078361.4 申请日期 2011.03.30
申请人 株式会社理光 发明人 姜珊珊;谢宣松;孙军;郑继川;赵立军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 黄小临
主权项 一种从网页中抽取对象标识符的系统,其中,所述网页包含表示所述对象标识符的各种信息的对象标识符相关信息,所述系统包括:标识符块识别模块,用于从网页中识别标识符块,所述标识符块是包含所述对象标识符相关信息的一段文本;标识符片段抽取模块,与所述标识符块识别模块连接,用于根据所述标识符块识别模块识别出的标识符块中每个单词的位置信息和内容信息的至少其中之一,来从所述标识符块中移除无用信息,以得到标识符片段;以及标识符单元标注模块,与所述标识符片段抽取模块连接,用于将所述标识符片段抽取模块抽取出的标识符片段标注为适于构建对象数据库的对象标识符。
地址 日本东京都