发明名称 异质信息网络元路径确定、链路预测方法及装置
摘要 本发明实施例提供的异质信息网络元路径确定、链路预测方法及装置,可以创建第一数据结构体并插入侯选集;根据侯选集中保存的数据结构体的综合相似性分数的大小,从侯选集中选出一个数据结构体,检察该数据结构体中是否存在与任一第一实体对相同的第三实体对;如果存在,将该数据结构体中链接第三实体对的元路径保存至元路径集,删除侯选集中的该数据结构体,并继续从侯选集中选择下一个数据结构体;否则,创建第三数据结构体并插入侯选集,然后继续从侯选集中选择下一个数据结构体,直到侯选集为空。应用本发明提供的元路径确定方法及装置,可以快速、准确地确定出有用的元路径;应用本发明提供的一种链路预测方法及装置,获得的预测结果更准确。
申请公布号 CN105913125A 申请公布日期 2016.08.31
申请号 CN201610225725.X 申请日期 2016.04.12
申请人 北京邮电大学 发明人 石川;曹晓欢;郑玉艳
分类号 G06N7/00(2006.01)I 主分类号 G06N7/00(2006.01)I
代理机构 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人 马敬;项京
主权项 一种异质信息网络元路径确定方法,其特征在于,所述方法包括:S101、确定异质信息网络中待确定元路径的多个第一实体对,其中,每一所述第一实体对包括源结点和目标结点,每一所述第一实体对至少被第一预设类型的边链接;S102、根据所述多个第一实体对确定初始数据结构体;所述初始数据结构体包括:由每一所述第一实体对中的源结点与该源结点自身组成的实体对;S103、根据所述异质信息网络中的边类型,生成跳数为1的多个第一侯选元路径,对每一所述第一侯选元路径执行完步骤A至步骤D后,执行步骤S104:A.根据所述异质信息网络、所述初始数据结构体和所述第一侯选元路径,生成被所述第一侯选元路径链接的多个第二实体对;其中,所述第二实体对的源结点为所述初始数据结构体中的实体对的源结点,所述第二实体对的目标结点为所述异质信息网络中除所述第一实体对中的源结点外的结点;B.根据第一预设模型计算每一所述第二实体对被所述第一候选元路径链接时的相似性度量值;将所述第一候选元路径、每一所述第二实体对及其对应的相似性度量值保存至第一数据结构体;C.根据第二预设模型计算所述第一数据结构体的综合相似性分数并保存至所述第一数据结构体;D.将所述第一数据结构体插入侯选集;S104、根据所述综合相似性分数的大小,从所述侯选集中选出一个数据结构体,记为第二数据结构体;检察所述第二数据结构体中是否存在与任一所述第一实体对相同的第三实体对;S105、如果存在,将所述第二数据结构体中,链接所述第三实体对的元路径及所述第三实体对对应保存至元路径集,删除所述侯选集中的所述第二数据结构体,并执行步骤S104;S106、如果不存在,根据所述第二数据结构体中保存的第二侯选元路径及所述异质信息网络中的边类型,生成多个第三侯选元路径,所述第三侯选元路径的跳数与所述第二候选元路径的跳数的差为1;删除所述侯选集中的所述第二数据结构体;对每一所述第三侯选元路径执行完步骤E至H后,执行步骤S104;E、根据所述异质信息网络、所述第二数据结构体和所述第三侯选元路径,生成被所述第三侯选元路径连接的多个第四实体对,所述第四实体对的源结点为所述第二数据结构体中的实体对的源结点,所述第四实体对的目标结点为所述异质信息网络中除所述第一实体对的源结点外的结点;F、根据所述第一预设模型计算每一所述第四实体对被所述第三侯选元路径链接时的相似性度量值,将所述第三侯选元路径、每一所述第四实体对及其对应的相似性度量值保存至第三数据结构体;G、根据所述第二预设模型计算所述第三数据结构体的综合相似性分数并保存至所述第三数据结构体;H、将所述第三数据结构体插入所述侯选集;其中,所述第一预设模型为:<img file="FDA0000963660630000021.GIF" wi="957" he="127" />其中,σ(s,t<sub>i</sub>|∏<sup>1…i</sup>)表示源结点s和目标结点ti在元路径∏<sup>1…i</sup>上的相似性度量值;∏<sup>1…i</sup>表示链接源结点s和目标结点t<sub>i</sub>的一条i‑1跳的元路径,I(V<sub>i‑1</sub>)表示从源结点s开始在元路径∏<sup>1…i‑1</sup>上游走可到达的目标结点的集合,x为I(V<sub>i‑1</sub>)中的一个结点;R(x,t<sub>i</sub>)表示是否能通过边R<sub>i‑1</sub>到达目标结点t<sub>i</sub>,能为1,否则为0;R(x,·)表示结点x通过边R<sub>i‑1</sub>可到达的结点数目;所述第二预设模型为:<img file="FDA0000963660630000022.GIF" wi="629" he="118" />其中,S表示数据结构体的综合相似性分数;s是源结点,t是通过元路径∏的可达目标结点,τ是可达目标结点的数目;σ(s,t|∏)为实体对(s,t)在元路径∏上的相似性度量值;r(s)=1‑α*N,r(s)表示源结点s对于当前数据结构体的贡献能力以平衡结构体的选择,α为贡献能力的递减系数,N表示已保存至所述元路径集的元路径链接的源结点为s的所述第一实体对的个数。
地址 100876 北京市海淀区西土城路10号