发明名称 一种基于Email网络的开源软件项目开发者预测方法
摘要 一种基于Email网络的开源软件项目开发者预测方法,包括以下步骤:1)搭建不同类型的Email网络;2)采用不同网络节点排序算法对网络中各个节点进行计算得到相应特征分值,同时利用网络拓扑性质得出每个节点的特征向量中心性和聚类系数;3)对各个算法得出的特征分值和拓扑性质参数的排名分别做归一化处理,作为样本的特征;4)将部分节点作为样本输入到机器学分类器中,采用Bayesian算法进行学;5)对剩余节点样本进行预测。本发明针对OSS项目参与人数众多而核心开发者少量的特点提出的,可以有效地预测出各个OSS项目中的开发者人员,相比网络节点排序算法在准确率上有了显著的提高。
申请公布号 CN106529562A 申请公布日期 2017.03.22
申请号 CN201610813058.7 申请日期 2016.09.09
申请人 浙江工业大学 发明人 宣琦;李甫宪;周鸣鸣;陈风雷;李嘉南;吴哲夫;傅晨波;翔云;俞立
分类号 G06K9/62(2006.01)I;G06Q10/04(2012.01)I 主分类号 G06K9/62(2006.01)I
代理机构 杭州斯可睿专利事务所有限公司 33241 代理人 王利强
主权项 一种基于Email网络的开源软件项目开发者预测方法,其特征在于:所述方法包括如下步骤:S1:根据OSS项目获得的Email数据,同时结合项目的时效特性,分别搭建六种不同的网络:无向无权网络、无向有权网络、无向时效网络、有向无权网络、有向有权网络、有向时效网络;S2:采用节点排序算法Degree‑Based,PageRank,LeaderRank,Hits得出不同网络中各个节点的分值,同时利用网络拓扑结构,得到每个节点的特征向量中心性和聚类系数;S3:将同种类型的Email网络合并,每个节点即作为一个样本,将上述步骤S2不同算法和网络特性得到的分值排名作为特征,样本标签为是或者不是开发者,构成一个分类器,同时,用欠采样的方法预处理样本数据;S4:随机抽取处理后的总样本的80%作为训练样本,20%作为测试样本,采用Bayesian算法进行机器学习,并对测试样本进行测试。
地址 310014 浙江省杭州市下城区潮王路18号浙江工业大学