面向自然语言处理的语义Web服务智能代理,申请号CN201010109653.5-传众专利搜索

发明名称	面向自然语言处理的语义Web服务智能代理
摘要	本发明是一种面向自然语言处理的语义Web服务智能代理，包括面向自然语言处理的语义Web服务搜索方法和服务智能代理系统，Web服务采集子系统与Web服务搜索引擎通过共享服务仓库实现数据链接；自然语言用户接口与Web服务搜索引擎、自然语言用户接口与服务执行引擎通过TCP网络连接实现数据交换。采用信息抽取法获取描述服务的关键词集，以概率隐含语义索引方法构建服务语义索引，基于WSDL的语义Web服务搜索方法，利用词汇相似度，基于签名文本匹配。提高搜索的精确度并简化算法优化设计，提高了查准率和查全率，具有兼容性，易于推广应用。为面向自然语言处理的智能代理的实际应用解决路径的技术问题，具有突破性的意义。
申请公布号	CN101833561B	申请公布日期	2012.12.26
申请号	CN201010109653.5	申请日期	2010.02.12
申请人	西安电子科技大学	发明人	刘志境;朱旭东;姚勇;王静;杨伟
分类号	G06F17/30(2006.01)I;G06F17/28(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	陕西电子工业专利中心 61205	代理人	程晓霞
主权项	1.一种面向自然语言处理的语义Web服务搜索方法，其特征在于，包括如下步骤：A、将Web服务采集子系统采集的所有服务描述文件汇集为服务描述文集C；B、采用信息抽取算法，处理服务描述文集C，获取描述服务语义的关键词；C、从服务描述文集C抽取的所有关键词汇集为服务原始词汇集T；D、采用基于词汇相似度的词聚类算法，处理服务原始词汇集T，构造服务词汇表D；所述基于词汇相似度的词聚类算法包括如下步骤：D1、定义词汇相似度<maths num="0001"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>α</mi><mo>×</mo><mrow><mo>(</mo><msub><mi>l</mi><mn>1</mn></msub><mo>+</mo><msub><mi>l</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mrow><mo>(</mo><mi>Dis</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>α</mi><mo>)</mo></mrow><mo>×</mo><mi>max</mi><mrow><mo>(</mo><mo>\|</mo><msub><mi>l</mi><mn>1</mn></msub><mo>-</mo><msub><mi>l</mi><mn>2</mn></msub><mo>\|</mo><mo>,</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>其中l<sub>1</sub>，l<sub>2</sub>是t<sub>1</sub>，t<sub>2</sub>分别所处的层次，α＞0是可调参数；D2、初始化聚类集合为空；D3、从服务原始词汇集T中读入一个新词；D4、以这个词构造一个新的类；D5、若已到服务原始词汇集T末尾，则词聚类算法结束，否则利用D1步骤中定义的词汇相似度，计算所读入新词与每个已有类间的距离，并选择最小的距离；D6、若最小距离超过给定的阈值，则转步骤D3；D7、否则将该词并入具有最小距离的类中并更新该类的各分类属性值的统计频度及数值属性的质心，转步骤D3；D8、以所获得类的中心词为词汇，汇集构造服务词汇表D；E、基于服务词汇表D，采用概率隐含语义索引算法，处理服务描述文集C，自动构建服务描述文集C的语义索引；所述概率隐含语义索引算法包括如下步骤：E1、基于服务词汇表D，将服务描述文集C中所有文档的每一个关键词替换为D中相应服务词汇；E2、设服务描述文集C包含N个文件，服务词汇表D包含M个词汇，构造一个M×N矩阵<img file="FSB00000923414200012.GIF" wi="67" he="56" />E3、针对矩阵<img file="FSB00000923414200013.GIF" wi="68" he="54" />采用期望最大化算法，估计参数p(d)，p(d\|z)和p(w\|z)；E4、在服务描述文集C中，依据下式计算每一个文档d的索引：Index＝arg max<sub>k</sub> p(z<sub>k</sub>\|d)；F、基于服务描述文集C的语义索引，采用服务搜索算法，处理用户服务请求，从而实现服务搜索。
地址	710032 陕西省西安市太白南路2号