多模态数据的融合概率潜在语义分析方法,申请号CN201110180025.0-传众专利搜索

发明名称	多模态数据的融合概率潜在语义分析方法
摘要	本发明公开了概率潜在语义分析技术领域中的一种多模态数据的融合概率潜在语义分析方法。本发明从多模态数据本质出发，通过交叉结构的引入，将仅用于单模态的标准概率潜在语义分析模型扩展至多模态，主要对每个模态对潜在语义空间贡献的差异性和它们之间内容的关联性进行建模，从而为多模态数据提供更为准确的分析和描述。本发明通过全局的参数更新来实现更为精确的参数估计；为各模态选定合适的主题数取值范围提供了依据，减少了人工选取的工作量。
申请公布号	CN102289430B	申请公布日期	2013.11.13
申请号	CN201110180025.0	申请日期	2011.06.29
申请人	北京交通大学	发明人	苗振江;钟岑岑
分类号	G06F17/27(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	北京众合诚成知识产权代理有限公司 11246	代理人	黄家俊
主权项	1.多模态数据的融合概率潜在语义分析方法，其特征是该方法包括以下步骤：步骤1：建立各个模态的标准概率潜在语义分析模型，在此基础上建立融合模型，即分别为模态A和模态V构建标准的概率潜在语义分析模型，可表示为：d→z<sup>A</sup>→w<sup>A</sup>和d→z<sup>V</sup>→w<sup>V</sup>；在此基础上，再建立模态A和模态V之间主题和词汇的交叉生成关系，即z<sup>A</sup>→w<sup>V</sup>和z<sup>V</sup>→w<sup>A</sup>，实现融合模型的建模；步骤2：确定融合模型的工作空间，并选定主题数；步骤3：将融合模型分解为非对称的概率潜在语义分析模型，根据融合模型的输入值和选定主题数，计算非对称的概率潜在语义分析模型的初始参数值；步骤4：通过最大期望算法对初始参数值更新，得到最终参数；所述最大期望算法的计算公式为：<maths num="0001"><![CDATA[<math><mrow><mi>L</mi><mo>=</mo><munderover><mi>Π</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><mrow><mo>(</mo><munderover><mi>Π</mi><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>A</mi></msub></munderover><mi>p</mi><msup><mrow><mo>(</mo><msubsup><mi>w</mi><mi>p</mi><mi>A</mi></msubsup><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mrow><mi>n</mi><mrow><mo>(</mo><msubsup><mi>w</mi><mi>p</mi><mi>A</mi></msubsup><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></msup><munderover><mi>Π</mi><mrow><mi>q</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>V</mi></msub></munderover><mi>p</mi><msup><mrow><mo>(</mo><msubsup><mi>w</mi><mi>q</mi><mi>V</mi></msubsup><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mrow><mi>n</mi><mrow><mo>(</mo><msubsup><mi>w</mi><mi>q</mi><mi>V</mi></msubsup><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></msup><mo>)</mo></mrow></mrow></math>]]></maths>其中：L为似然函数值；<img file="FDA00003512226200012.GIF" wi="235" he="97" />为模态A的共现概率；<img file="FDA00003512226200013.GIF" wi="234" he="98" />为模态V的共现概率；<img file="FDA00003512226200014.GIF" wi="191" he="98" />为模态A的已知观察值；<img file="FDA00003512226200015.GIF" wi="192" he="97" />为模态V的已知观察值；<img file="FDA00003512226200021.GIF" wi="226" he="97" />为模态A的观察值共现矩阵；<img file="FDA00003512226200022.GIF" wi="228" he="99" />为模态V的观察值共现矩阵；N<sub>A</sub>为模态A的词汇数；N<sub>V</sub>为模态V的词汇数；<img file="FDA00003512226200023.GIF" wi="72" he="85" />为模态A的第p个词汇；<img file="FDA00003512226200024.GIF" wi="71" he="87" />为模态V的第q个词汇；d<sub>i</sub>为第i个文档；M为文档集内文档的数目；d为观察值中的文档集；z<sup>A</sup>为观察值中第A个模态的主题空间；w<sup>A</sup>为观察值中第A个模态的词汇集；z<sup>V</sup>为观察值中第V个模态的主题空间；w<sup>V</sup>为观察值中第V个模态的词汇集；步骤5：利用最终参数对待检测的模态进行分析，得到了新数据的主题条件概率。
地址	100044 北京市海淀区西直门外上园村3号北京交通大学科技处