发明名称 |
结构化文档处理装置、搜索装置及结构化文档系统和方法 |
摘要 |
一种结构化文档处理装置,包括:获取单元,用于获取结构化文档;存储单元,用于存储结构模型树,该结构模型树表示所述获取的结构化文档的典型结构;解析单元,用于解析所述获取的结构化文档;更新单元,用于更新所述结构模型树,使之与所述解析后的结构化文档匹配;分割单元,用于将所述获取的结构化文档分为多个词汇项;以及计算单元,用于计算出现频率信息,该出现频率信息表示在所述获取的结构化文档中每个所述词汇项的位置。 |
申请公布号 |
CN1904896A |
申请公布日期 |
2007.01.31 |
申请号 |
CN200610108066.8 |
申请日期 |
2006.07.27 |
申请人 |
株式会社东芝 |
发明人 |
金轮拓也 |
分类号 |
G06F17/30(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
永新专利商标代理有限公司 |
代理人 |
王英 |
主权项 |
1、一种结构化文档处理装置,包括:获取单元,用于获取结构化文档;存储单元,用于存储结构模型树,该结构模型树表示所述获取的结构化文档的典型结构;解析单元,用于解析所述获取的结构化文档;更新单元,用于更新所述结构模型树,以使之与所述解析后的结构化文档的结构匹配;分割单元,用于将所述获取的结构化文档分割为多个词汇项;以及计算单元,用于计算所述获取的结构化文档中所述多个词汇项的每一个的出现频率信息。 |
地址 |
日本东京都 |