基于专家值传播算法的社会网络专家信息处理系统及方法,申请号CN200710117719.3-传众专利搜索

发明名称	基于专家值传播算法的社会网络专家信息处理系统及方法
摘要	基于专家值传播算法的社会网络专家信息处理系统及方法属于社会网络信息处理领域。其特征为用社会网络生成服务器构建社会关系网络图，该图用个人描述信息、人际关系、关系类别，及人际关系到关系类别的映射函数来描述。用专家值计算服务器对从数据库服务器中读取的信息，按权重分析计算领域关键词与每个人的描述信息及论文信息的相关性，经拟合后得到初始专家值；接着按人际关系重要度及密切度构造传播矩阵，根据初始专家值和传播矩阵作迭代，得到所有专家的专家值，归一化后，从大到小排序，输出到Web服务器，供用户选择。今后，可在社会网络专家信息处理系统上，利用人际关系的重要性及密切性进行专家检索，其结果更为可靠。
申请公布号	CN100583804C	申请公布日期	2010.01.20
申请号	CN200710117719.3	申请日期	2007.06.22
申请人	清华大学	发明人	唐杰;张静;李涓子
分类号	H04L12/54(2006.01)I;H04L12/28(2006.01)I	主分类号	H04L12/54(2006.01)I
代理机构		代理人
主权项	1、基于专家值传播算法的社会网络专家信息处理系统，其特征在于该系统由依次串联的社会关系网络生成服务器、数据库服务器、专家值计算服务器及Web服务器构成，其中：社会关系网络生成服务器，依次按以下步骤构建一个社会关系网络图G：步骤(1)，社会网络为G＝(V，E，T，τ)，其中，V为节点集，v∈V，每个节点v代表社会网络中的一个人，他会有下述个人描述信息：个人基本信息，其中至少会有：职位、单位、研究兴趣和主页地址；个人发表的论文信息，其中至少含有：论文标题、发表会议名称和合作作者；个人与论文之间的关系用一个人与其所发表的稿件对应表示描述，其中包括：所述人的标识以及论文的标识；<maths num="0001"><![CDATA[<math><mrow><mi>E</mi><mo>&SubsetEqual;</mo><mi>V</mi><mo>×</mo><mi>V</mi></mrow></math>]]></maths>为社会关系网络图G中边的集合，e<sup>t</sup><sub>ij</sub>∈E代表G中的人v<sub>i</sub>和v<sub>j</sub>之间存在的一种关系，用t表示；T为所述集合E中各种关系类型的集合，t∈T代表人与人之间的一种社会关系类型，用一个社会关系类型表来描述，其中至少含有：关系，不少于论文作者合作关系，论文或项目的指导关系，研究项目的合作关系以及朋友关系四种；各种关系的权重以及关系的标识；τ：E→T是一个人际关系到所述关系类型的映射函数，用τ(e<sup>t</sup><sub>ij</sub>)＝t表示，当所述人际关系为双向关系时，表示一种对称关系；在所述社会关系网络图G中，全部人际关系构成一个社会关系网络节点表，包括：人际关系类型τ、源节点v<sub>i</sub>和目标节点v<sub>j</sub>；步骤(2)，把步骤(1)得到的社会关系网络图G输入到数据库服务器；步骤(3)，专家值计算服务器在整个社会关系网络中检索所有候选专家，并给每个候选专家计算领域相关的专家值：步骤(3.1)，对于每个人v<sub>i</sub>，把他的个人基本的描述信息连接成一个大文档d，并用p<sub>k</sub>表示该v<sub>i</sub>的每一篇论文的信息；步骤(3.2)，给定一个领域关键词q，运用信息检索中的概率模型，估计该领域关键词q和个人基本信息e的相关度p(q\|d)，以及领域关键词q和每一篇论文的信息的相关度(q\|p<sub>k</sub>)：<maths num="0002"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>q</mi><mo>\|</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>Π</mi><mrow><mi>t</mi><mo>&Element;</mo><mi>q</mi></mrow></munder><msup><mrow><mo>(</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>λ</mi><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>t</mi><mo>\|</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>λp</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mi>n</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>q</mi><mo>)</mo></mrow></mrow></msup></mrow></math>]]></maths>其中：t表示当把领域关键词q分割成分词后，其中各个词的符号表示；n(t，q)表示分词t出现在q中的次数；λ为平滑处理系数，取值为[0，1]；p(t)为分词t在所有人的大文档d中出现的次数除所有人的大文档d中包含的总词数来估算；p(t\|d)为分词t在v<sub>i</sub>的大文档d中出现的次数除v<sub>i</sub>的大文档d中包含的总字数来估算；<maths num="0003"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>q</mi><mo>\|</mo><msub><mi>p</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>Π</mi><mrow><mi>t</mi><mo>&Element;</mo><mi>q</mi></mrow></munder><msup><mrow><mo>(</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>λ</mi><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>t</mi><mo>\|</mo><msub><mi>p</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>λp</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mi>n</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>q</mi><mo>)</mo></mrow></mrow></msup></mrow></math>]]></maths>其中：p(q\|p<sub>k</sub>)为分词t在v<sub>i</sub>的每篇论文的信息p<sub>k</sub>中出现的次数除以过滤了高频词后的论文信息p<sub>k</sub>中包含的总字数来估算；步骤(3.2)，根据步骤(3.1)得到的p(q\|d)和p(q\|p<sub>k</sub>)计算出每个人v<sub>i</sub>的个人基本信息以及每篇论文的信息各自与领域关键词q的相关度，再把这两个相关度进行线性拟合，得到下式所表示的每个人v<sub>i</sub>的专家初始值s(v<sub>i</sub>)<sup>0</sup>：<maths num="0004"><![CDATA[<math><mrow><mi>s</mi><msup><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow><mn>0</mn></msup><mo>=</mo><mi>α</mi><mo>·</mo><mi>p</mi><mrow><mo>(</mo><mi>q</mi><mo>\|</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>α</mi><mo>)</mo></mrow><mo>·</mo><munder><mi>Σ</mi><mrow><msub><mi>p</mi><mi>k</mi></msub><mo>&Element;</mo><mi>P</mi></mrow></munder><mi>if</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>×</mo><mi>p</mi><mrow><mo>(</mo><mi>q</mi><mo>\|</mo><msub><mi>p</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>其中，α取值范围为[0，1]，P表示该v<sub>i</sub>发表的全部论文，p<sub>k</sub>表示P中的一篇论文；if(p<sub>k</sub>)表示论文p<sub>k</sub>所发表的会议或杂志的影响因子，为已知值；步骤(3.3)，选择初始专家值排在前N位的专家组成候选专家组，N为设定值；步骤(4)，所述专家值计算服务器利用基于传播思想的迭代算法，按以下步骤构建一个社会网络子图，并在该子图的基础上更新获取候选专家的专家值：步骤(4.1)，根据步骤(3.3)得到的候选专家组得到一个关于领域关键词q的社会关系网络子网，其中节点代表一个候选专家，每条边表示连接的两个专家之间关系；步骤(4.2)为步骤(4.1)得到的社会关系网络子图构建一个传播系统矩阵M，其中的元素M<sub>ij</sub>表示从v<sub>i</sub>到v<sub>i</sub>的传播系数，M<sub>ij</sub>取值范围为[0，1]，所述M<sub>ij</sub>如下所示：<maths num="0005"><![CDATA[<math><mrow><msub><mi>M</mi><mi>ij</mi></msub><mo>=</mo><munder><mi>Σ</mi><mi>t</mi></munder><mi>c</mi><mrow><mo>(</mo><mi>τ</mi><mrow><mo>(</mo><msubsup><mi>e</mi><mi>ij</mi><mi>t</mi></msubsup><mo>)</mo></mrow><mo>*</mo><mi>w</mi><mrow><mo>(</mo><msubsup><mi>e</mi><mi>ij</mi><mi>t</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths>其中，c(τ(e<sup>t</sup><sub>ij</sub>))代表一种关系e<sup>t</sup><sub>ij</sub>的权重，为设定值，w(e<sup>t</sup><sub>ij</sub>)代表v<sub>i</sub>和v<sub>j</sub>之间关系e<sup>t</sup><sub>ij</sub>的密切程度，根据所述社会关系网络图中关系权重大者来选取相应的关系名称，据此来计算相应的关系权重w(e<sub>ij</sub><sup>t</sup>)：<img file="C2007101177190003C4.GIF" wi="979" he="213" />其中，\|U<sub>i</sub>\|表示v<sub>i</sub>的所有这种关系的数目；步骤(4.3)，计算算法迭代到n+1时的专家值向量S<sup>n+1</sup>，S<sup>n+1</sup>表示所有专家的专家值组成的向量，其中的每一维S<sub>i</sub><sup>n</sup>代表v<sub>i</sub>的专家值：S<sup>n+1</sup>＝(1-ω)S<sup>n</sup>+ωM<sup>T</sup>S<sup>n</sup>其中，ω表示传播距离的惩罚系数，取值范围为[0，1]，传播系数矩阵M在跌代过程是固定不变的；步骤(4.4)，把步骤(4.3)中所有专家的专家值归一化为：<maths num="0006"><![CDATA[<math><mrow><msubsup><mi>S</mi><mi>i</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>=</mo><mfrac><msubsup><mi>S</mi><mi>i</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mrow><mi>max</mi><mrow><mo>(</mo><msubsup><mi>S</mi><mi>i</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>专家值最大为1；步骤(4.5)把步骤(4.4)得到的推荐专家集通过Web网络输出给用户。
地址	100084北京市100084-82信箱