发明名称 |
信息处理装置和信息处理方法 |
摘要 |
提供一种信息处理装置和方法。信息处理方法包括:从图片中识别字符串作为备选;响应于得到备选字符串,根据其获取检索词;响应于检索词的获取,使用检索词来检索网页;响应于检索到的网页,对检索到的网页进行聚类;当作为聚类结果的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;响应于第一网页类别的选择,对照第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。 |
申请公布号 |
CN103377199B |
申请公布日期 |
2016.06.29 |
申请号 |
CN201210112493.9 |
申请日期 |
2012.04.16 |
申请人 |
富士通株式会社 |
发明人 |
夏迎炬;杨宇航;葛付江;孙健;潘屹峰;陈思源;何源;孙俊;于浩 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
杜诚;陈炜 |
主权项 |
一种信息处理装置,包括:字符识别单元,用于从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元;检索词获取单元,用于响应于备选字符串的输入,根据所述备选字符串获取用于进行检索的检索词;检索单元,用于响应于检索词的获取,使用所获取的检索词来检索网页;网页选择单元,用于响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元;所述校验单元,用于响应于第一网页类别的输入,对照所述第一网页类别对由所述检索词获取单元获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到所述检索词获取单元;以及所述类型识别单元,用于基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。 |
地址 |
日本神奈川县 |