一种基于概率潜语义分析模型的面向对象影像聚类方法,申请号CN201010220330.3-传众专利搜索

发明名称	一种基于概率潜语义分析模型的面向对象影像聚类方法
摘要	本发明涉及一种基于概率潜语义分析(PLSA)模型的面向对象影像聚类方法。通过将影像分割为不同尺寸的矩形影像块并引入计算机视觉的图像分析方法，从而将影像像素视为视觉词、影像块视为影像文档、像元归属的主题视为聚类中心。依据影像块的重叠程度将影像文档划分为训练文档集与推断文档集，然后利用训练文档训练PLSA模型可获取影像聚类的最佳聚类中心与训练文档中视觉词与主题的先验概率。将推断文档中的视觉词的先验概率视为与训练文档中的先验概率一致，利用PLSA模型的EM算法循环迭代推断出文档集中每个文档中视觉词的主题类型，从而确定出每个视觉词在其邻域文档中的主题类型。分析视觉词与领域文档的距离并进行一定的高斯距离权重分配，选择权重最大的主题视为聚类类型，从而将空间信息引入聚类算法，最终形成面向对象的影像聚类结果。本发明方法可以得到一般单纯使用像元信息进行聚类所无法实现的效果，从而可以满足不同高分辨率遥感影像分析与应用的需求。
申请公布号	CN102314610B	申请公布日期	2014.10.15
申请号	CN201010220330.3	申请日期	2010.07.07
申请人	北京师范大学	发明人	唐宏;陈云浩;易文斌
分类号	G06T7/00(2006.01)I	主分类号	G06T7/00(2006.01)I
代理机构	北京三聚阳光知识产权代理有限公司 11250	代理人	张韬
主权项	一种高分辨遥感影像的聚类分析方法，其特征在于该方法包括如下步骤：1)影像文档的生成,影像文档是以h×h的子影像块来表示的，而影像文档集是通过将原始影像划分为具备一定重叠程度的子影像块来实现生成的；影像文档集依据影像文档生成过程中重叠程度的不同而划分为影像训练文档集与影像推断文档集，其中不重叠的影像文档构成影像训练文档集，而重叠的影像文档构成影像推断文档集；只有影像训练文档被用来估计视觉词与主题之间的条件概率分布P(w\|z)；当P(w\|z)被估计出来后，影像训练文档中视觉词与主题之间的条件概率分布具备典型性，影像推断文档集中的视觉词与主题的条件概率分布符合相同的分布；然后在固定视觉词与主题的条件概率分布P(w\|z)的基础上，通过影像推断文档集获取每个文档中每个视觉词对应主题的条件概率分布P(z\|d,w)，从而能够获取原始影像中每个像元在其邻域文档中对应主题的条件概率分布,其中所述的z为视觉词的主题类型，所述的d为邻域文档，所述的w为视觉词；2)影像最佳聚类中心个数的确定，聚类中心个数的选择是通过MDL准则来实现的；MDL准则假设影像的特征符合高斯混合分布的特征，并利用最小描述长度的条件约束来获取最佳聚类中心个数；3)利用影像文档结合PLSA模型获取每文档中视觉词对应主题类型的条件概率分布，当影像的聚类中心个数确定之后，通过利用PLSA模型来估计推断文档集中每个视觉词对应主题的条件概率的分布；该条件概率的估计流程整体划分为两部分为：PLSA模型训练与PLSA模型推断；影像文档集在整体上被划分为两种类型，分别为影像训练文档集与影像推断文档集，而这两种影像文档集将被有效地应用于条件概率估计流程的两个阶段；在PLSA模型的训练阶段，利用影像训练文档集构建词与文档的词频共生矩阵，然后结合PLSA模型的训练可以获得影像训练文档集中视觉词对应主题的条件概率P(w\|z)；4)结合视觉词的多个邻域文档计算原始影像中每个像元对应于每个聚类类型的条件概率分布，最终选择使最大的聚类类型作为像元的聚类类型，原始影像中每个像元在其邻域文档中的主题概率分布信息均可得到；每个像元都被多个邻域文档覆盖，而利用w<sub>j</sub>表示原始影像中的像元j时，通过计算条件概率分布<img file="FDA0000498422680000011.GIF" wi="246" he="70" />来最终判定该像元最终的聚类类别归属；包括四个步骤：确定原始影像中每个像元对应的覆盖该像元的所有邻域文档；具体而言，是通过给定的视觉词q的坐标(x<sub>q</sub>,y<sub>q</sub>)来寻找该像元对应的邻域文档集D<sub>q</sub>，其中D<sub>q</sub>中每个文档在空间位置上均覆盖视觉词q；利用视觉词q的坐标(x<sub>q</sub>,y<sub>q</sub>)与邻域文档集D<sub>q</sub>中邻域文档di的坐标信息(xd<sub>i</sub>,yd<sub>i</sub>)来计算视觉词在其邻域文档中的概率权重p(d<sub>i</sub>\|c<sub>i</sub>,q)，具体计算公式为：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>\|</mo><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>q</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>c</mi><mi>i</mi></msub><mfrac><mn>1</mn><mrow><msqrt><mn>2</mn><mi>π</mi></msqrt><mi>δ</mi></mrow></mfrac><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><mrow><msup><mrow><mo>(</mo><msub><mi>x</mi><msub><mi>d</mi><mi>i</mi></msub></msub><mo>-</mo><msub><mi>x</mi><mi>q</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>y</mi><msub><mi>d</mi><mi>i</mi></msub></msub><mo>-</mo><msub><mi>y</mi><mi>q</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow><msup><mi>δ</mi><mn>2</mn></msup></mfrac><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FDA0000498422680000021.GIF" wi="1103" he="174" /></maths>其中c<sub>i</sub>是对于视觉词q邻域文档的属性标识，若d<sub>i</sub>为邻域文档集D<sub>q</sub>中的文档，则c<sub>i</sub>等于1；若d<sub>i</sub>不为邻域文档集中的文档时，则c<sub>i</sub>等于0；其中δ为一个常数，用以分配视觉词q邻域文档主题类型概率的权重，采取的实验中δ等于0.5；在计算出每个视觉词、该视觉词与其邻域文档集合之间的权重分配系数的基础上，结合视觉词在每个邻域文档中的视觉词对主题的条件概率分布P(z\|d,w)，可以计算出原始影像中每个像元对应的主题概率权重分布，具体计算公式为：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>z</mi><mi>q</mi></msub><mo>\|</mo><mi>q</mi><mo>,</mo><mover><mi>c</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mover><mi>z</mi><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>Z</mi><mi>ij</mi></msub><mo>\|</mo><msub><mi>d</mi><mi>i</mi></msub><mo>,</mo><msub><mi>w</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>\|</mo><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>q</mi><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000498422680000022.GIF" wi="983" he="158" /></maths>其中z<sub>q</sub>为视觉词q的主题类型；P(z\|d,w)、p(zi<sub>j</sub>\|d<sub>i</sub>,w<sub>j</sub>)的分布通过如下公式计算得到，具体计算公式为<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>z</mi><mi>k</mi></msub><mo>\|</mo><msub><mi>d</mi><mi>i</mi></msub><mo>,</mo><msub><mi>w</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>j</mi></msub><mo>\|</mo><msub><mi>Z</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>Z</mi><mi>k</mi></msub><mo>\|</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>W</mi><mi>j</mi></msub><mo>\|</mo><msub><mi>Z</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>Z</mi><mi>k</mi></msub><mo>\|</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000498422680000023.GIF" wi="1016" he="210" /></maths>视觉词q在公式中则被标识为w<sub>j</sub>，两者概念一致，仅表示方式存在一定差别；z<sub>i,j</sub>则表示为邻域第i个文档中的第j个视觉词对应的主题类型；c<sub>i</sub>则是对于视觉词q邻域文档的属性标识；通过计算的每个视觉词q对应第k个主题的概率权重分布<img file="FDA0000498422680000024.GIF" wi="366" he="83" />可以最终判定该视觉词q对应的主题类型，具体原则是主题概率权重最大的主题类型，即为该视觉词q对应的聚类类型Topic，判断具体遵循的公式如下所示；<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>Topic</mi><msub><mi>w</mi><mi>j</mi></msub></msub><mo>=</mo><munder><mrow><mi>Arg</mi><mi>max</mi></mrow><mrow><mn>1</mn><mo>≤</mo><mi>k</mi><mo>≤</mo><mi>K</mi></mrow></munder><mo>{</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>Z</mi><mi>q</mi></msub><mo>\|</mo><mi>q</mi><mo>,</mo><mover><mi>c</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mover><mi>z</mi><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>}</mo></mrow>]]></math><img file="FDA0000498422680000025.GIF" wi="919" he="141" /></maths>其中K为主题的总数量。
地址	100875 北京市新街口外大街19号北京师范大学资源学院08博