发明名称 |
网络文档信息处理方法及装置 |
摘要 |
本发明涉及一种网络文档信息处理方法及装置,其中方法包括:根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判断所述文档信息是否满足的所述规则集树上的规则集;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标识进行类别关联,并记录关联结果。通过本发明,由于上述网络文档信息是通过自动对主关键字的标识及类别进行关联而实现的,因此不受检索范围的限制,提高了网络文档信息采集的效率,并且准确性更高。 |
申请公布号 |
CN101158953A |
申请公布日期 |
2008.04.09 |
申请号 |
CN200710046831.2 |
申请日期 |
2007.10.08 |
申请人 |
上海聆众商务咨询有限公司 |
发明人 |
沈佳蓉;余敏玮;王捷 |
分类号 |
G06F17/30(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
北京同立钧成知识产权代理有限公司 |
代理人 |
刘芳 |
主权项 |
1.一种网络文档信息处理方法,其特征在于包括:根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判断所述文档信息是否满足的所述规则集树上的规则集;其中,所述规则集树是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合,所述匹配规则中包含要进行匹配的主关键字;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标识进行类别关联,并记录关联结果。 |
地址 |
200042上海市江苏北路125号华联创意广场A108室 |