发明名称 一种基于概率潜在语义分析模型的万维网服务发现方法
摘要 一种基于概率潜在语义分析模型的Web服务发现方法利用了概率潜在语义分析模型对解析后的Web服务描述性文档进行建模分析,挖掘隐藏在服务描述背后的语义概念,进行语义聚类,在较先进的概念层次将请求服务和服务集中的服务进行相似性匹配,并且结合了语法层次上的谱聚类,在语义聚类之前以一种基于谱聚类的算法对服务数据集进行无关数据的滤除,从而压缩了计算的复杂性。经过试验证明,此方法在服务发现的查准率和查全率方面都有着很好的表现。
申请公布号 CN102129479A 申请公布日期 2011.07.20
申请号 CN201110112383.8 申请日期 2011.04.29
申请人 南京邮电大学 发明人 张卫丰;韩蕊;周国强;张迎周;许碧欢;陆柳敏
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种基于概率潜在语义分析模型的万维网服务发现方法,其特征在于将常规的语法分析和语义聚类相结合,语法分析指的是Web服务矩阵的构建和应用基于谱聚类的算法对数据集中的与请求无关的服务进行滤除,而语义聚类指的是在Web服务统一描述发现和集成(UDDI)以及Web服务描述(WSDL)的基础上,应用概率潜在语义分析模型对Web文档进行建模分析,将数据集进一步聚类为语义相关簇,在这一阶段,概率潜在语义分析模型的重要作用在于抓住隐藏在用户请求和Web服务描述背后的语义概念,使得Web服务的匹配在先进的概念层次进行,WSDL文档是Web服务描述的主要机制,包含了对服务中抽象接口的定义和对网络中具体执行的描述,通过从中提取信息内容并且进行适当的数据处理得到Web文本内容,具体实现步骤为:步骤1)采集WSDL文档,对这些文档进行解析,得到各部分元素名称及其文字内容;步骤2)对步骤1的结果进行单词原型处理和去除停止单词;对经过数据处理的Web文本数据集进一步考虑文本间的关系并且构建服务矩阵,服务矩阵的构建主要是建立在向量空间模型和词频‑逆向文档频率权重算法的基础上,通过向量空间模型,将数据集中的每个服务表示为一个向量形式,向量的每一维表示一个词项,其权重根据词频‑逆向文档频率权重算法得到,向量的维度也就相当于词汇表中的词汇数,即出现在整个文档集中所有不同词汇的总数,因此整个Web服务数据集就表示为一个服务矩阵,具体实现步骤为:步骤21)跟向量空间模型将数据集中的每一个服务表示为一个向量,用词频‑逆向文档频率加权计算向量中每个词项的权重;步骤22)在步骤1的基础上得到整个数据集的服务文本矩阵;在进行基于概率潜在语义分析的语义聚类之前,通过基于谱聚类的算法对数据集进行与请求无关服务的滤除,具体实现步骤为:步骤31)通过谱聚类将服务文本聚为k个簇,并且得到每个簇的聚类中心;步骤32)预先设定一个门限值,计算每簇中数据点和相应聚类中心的距离,如果大于门限值,则认为此数据代表的对象为请求无关服务,从服务集中删除;最后对经过上述步骤得到的数据集应用概率潜在语义分析模型将服务进一步聚类成为一定数量的语义相关簇,这一步的重要作用是集中于抓住隐藏在请求服务和服务描述背后的语义概念,最后在同一语义相关簇的范围内计算请求q和其中服务的语义相似度,具体实现步骤为:步骤41)对于数据集中的每一个服务d,根据概率潜在语义模型得到得出这个服务对于每个潜在变量zf的概率分布;步骤42)找到这个服务对应的潜在变量的概率分布的最大值,将其聚类到这个潜在变量对应的语义相关簇中;步骤43)循环步骤41)和步骤42),直到将整个数据集中的服务聚类为k个语义相关簇;步骤44)最后根据公式计算请求q和与其同一语义相关簇中的服务的语义相似度。
地址 210003 江苏省南京市新模范马路66号