发明名称 |
一种基于机器学的源代码注释质量评估方法 |
摘要 |
本发明涉及一种基于机器学的源代码注释质量评估方法。该方法首先对原始的代码注释进行预处理,清洗掉干扰信息,然后利用特征项选择和提取技术生成特征向量,将不同类别的特征向量输入文本分类器进行训练和调优,使用了多种不同特性的分类器并最终进行分类器融合,得出较为完善和准确的质量评估分类结果。本发明填补了以往只分析代码质量而无注释质量分析方法的空白,克服了代码注释质量依靠个人经验和手工方式评估的低效、主观性强等问题,可用于分析和评估手工编写的代码注释、利用文档自动生成的注释以及挖掘工具自动生成注释等多种来源的注释质量,有效的保证了代码注释质量和可理解性,降低软件维护的成本。 |
申请公布号 |
CN106021410A |
申请公布日期 |
2016.10.12 |
申请号 |
CN201610317968.6 |
申请日期 |
2016.05.12 |
申请人 |
中国科学院软件研究所 |
发明人 |
李斌;余海;贺也平 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
邱晓锋 |
主权项 |
一种基于机器学习的源代码注释质量评估方法,包括以下步骤:1)对源代码注释数据进行预处理,得到有效的纯文本注释信息;2)对预处理后的源代码注释数据进行特征提取,生成特征向量,并进行分类器训练;3)利用提取的特征向量,使用多种分类器对源代码注释数据进行质量分类,并将各分类器的质量分类结果进行融合,得出最终的源代码注释质量评估结果。 |
地址 |
100190 北京市海淀区中关村南四街4号 |