发明名称 RESTful Web服务的自动化语义标注系统和方法
摘要 一种RESTful Web服务的自动化语义标注系统和方法,该系统设有两种组成构件:作为系统的核心构件、负责网页的自动语义分析和标注的整个处理过程的网页处理构件和负责采用机器学方法提取网页特征和特征分类的特征处理构件。网页处理构件设有四个模块:预处理模块、网页分块模块、特征匹配模块和自动标注模块,特征处理构件设有三个模块:特征提取模块、特征分类模块和网页特征库。本发明较好地解决了目前只能人工标注、无法解决网上现存的大量文档急需实时标注的难题,可以有效处理海量的RESTful Web服务页面的标注,同时本发明提出的基于网页特征库的算法可以切实保证服务标注的准确率。
申请公布号 CN103559234B 申请公布日期 2017.01.25
申请号 CN201310506897.0 申请日期 2013.10.24
申请人 北京邮电大学 发明人 赵耀;林荣恒;罗程多;邹华;杨放春
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 夏宪富
主权项 一种RESTful Web服务的自动化语义标注系统,其特征在于:该系统设有下述两种组成构件:网页处理构件,作为系统的核心构件,负责网页的自动语义分析和标注的整个处理过程:从磁盘中读取RESTful Web服务源网页,通过预处理操作对网页中的文档结构进行统一分析,并根据文档结构的分析结果将文档划分为语义上相互独立的多个文本块,再分别提取每个文本块的文本内容和提取每个文本内容中的特征项,组成文本块的特征向量,再扫描网页特征库进行特征匹配,识别各个文本块所表述的信息,以供在网页中标注;该构件设有下述四个模块:预处理模块、网页分块模块、特征匹配模块和自动标注模块;特征处理构件,负责采用机器学习方法提取网页特征和特征分类,采用聚类算法计算每个文本块中的特征向量之间的相关程度,将网页的文本块根据特征向量的相关程度划分到多个不同的文本块类中;再计算每个文本块类中的特征项的语义相似度,根据文本块类的语义相关程度对文本块类进行二次分类,得到语义上相互独立的多个类别后,从中选取携带有用信息的语义类别,并生成这些语义类别的特征向量,存储于网页特征库中;该构件设有顺序连接的下述三个模块:特征提取模块、特征分类模块和网页特征库。
地址 100876 北京市海淀区西土城路10号