主权项 |
1.一种面向自然语言处理的语义Web服务搜索方法,其特征在于,包括如下步骤:A、将Web服务采集子系统采集的所有服务描述文件汇集为服务描述文集C;B、采用信息抽取算法,处理服务描述文集C,获取描述服务语义的关键词;C、从服务描述文集C抽取的所有关键词汇集为服务原始词汇集T;D、采用基于词汇相似度的词聚类算法,处理服务原始词汇集T,构造服务词汇表D;所述基于词汇相似度的词聚类算法包括如下步骤:D1、定义词汇相似度<maths num="0001"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>α</mi><mo>×</mo><mrow><mo>(</mo><msub><mi>l</mi><mn>1</mn></msub><mo>+</mo><msub><mi>l</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mrow><mo>(</mo><mi>Dis</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>α</mi><mo>)</mo></mrow><mo>×</mo><mi>max</mi><mrow><mo>(</mo><mo>|</mo><msub><mi>l</mi><mn>1</mn></msub><mo>-</mo><msub><mi>l</mi><mn>2</mn></msub><mo>|</mo><mo>,</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>其中l<sub>1</sub>,l<sub>2</sub>是t<sub>1</sub>,t<sub>2</sub>分别所处的层次,α>0是可调参数;D2、初始化聚类集合为空;D3、从服务原始词汇集T中读入一个新词;D4、以这个词构造一个新的类;D5、若已到服务原始词汇集T末尾,则词聚类算法结束,否则利用D1步骤中定义的词汇相似度,计算所读入新词与每个已有类间的距离,并选择最小的距离;D6、若最小距离超过给定的阈值,则转步骤D3;D7、否则将该词并入具有最小距离的类中并更新该类的各分类属性值的统计频度及数值属性的质心,转步骤D3;D8、以所获得类的中心词为词汇,汇集构造服务词汇表D;E、基于服务词汇表D,采用概率隐含语义索引算法,处理服务描述文集C,自动构建服务描述文集C的语义索引;所述概率隐含语义索引算法包括如下步骤:E1、基于服务词汇表D,将服务描述文集C中所有文档的每一个关键词替换为D中相应服务词汇;E2、设服务描述文集C包含N个文件,服务词汇表D包含M个词汇,构造一个M×N矩阵<img file="FSB00000923414200012.GIF" wi="67" he="56" />E3、针对矩阵<img file="FSB00000923414200013.GIF" wi="68" he="54" />采用期望最大化算法,估计参数p(d),p(d|z)和p(w|z);E4、在服务描述文集C中,依据下式计算每一个文档d的索引:Index=arg max<sub>k</sub> p(z<sub>k</sub>|d);F、基于服务描述文集C的语义索引,采用服务搜索算法,处理用户服务请求,从而实现服务搜索。 |