发明名称 一种基于动态主题模型的软件演化建模方法
摘要 本发明公开了软件工程领域内的一种基于动态主题模型的软件演化建模方法,包括预处理、建立时间序列文档、建立向量空间模型文档、动态主题建模、转化“文档‑主题”矩阵、转化“主题‑单词”矩阵以上各步骤,帮助开发人员和项目管理者理解项目开发过程中各个时间段内的开发侧重点以及整个时间周期内的开发特征的演化过程,缩短开发人员的开发维护时间,提高软件的开发效率,可用于软件的开发维护中。
申请公布号 CN104090775B 申请公布日期 2017.05.03
申请号 CN201410355483.7 申请日期 2014.07.24
申请人 扬州大学 发明人 孙小兵;胡嘉俊
分类号 G06F9/44(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F9/44(2006.01)I
代理机构 南京苏科专利代理有限责任公司 32102 代理人 董旭东
主权项 一种基于动态主题模型的软件演化建模方法,其特征在于,包括如下步骤:步骤1)预处理:对CVS数据库中的提交消息进行托肯化,去停用词,词干化三步操作,生成预处理后的消息文档,并分别建立时间序列文档和向量空间模型文档;步骤2‑1)建立时间序列文档:对预处理后的消息文档按时间间隔T进行划分,生成时间序列文档;步骤2‑2)建立向量空间模型文档:将预处理后的文档转化为向量空间模型文档,先将消息文档中出现的所有单词利用数字标号为其建立索引,且不允许重复,再将每一篇消息文档使用时间为其建立索引,最后将消息文档按篇逐行进行排列,每行消息文档按照unique_word_count index1:count1 index2:count2 … indexn:countn格式进行表征,其中unique_word_count代表该行消息文档中不重复单词的个数,index:count是一个键值对,代表在该行消息文档中第index个单词有count个;步骤3)动态主题建模:设置主题数目K,将时间序列文档和向量空间模型文档作为动态主题模型的输入文档,使用动态主题模型对其建模,并将动态主题模型的输出分别转化为“文档‑主题”矩阵和“主题‑单词”矩阵;步骤4‑1)转化“文档‑主题”矩阵:将动态主题模型的输出首先转化为一个“文档‑主题”矩阵,并使用公式<img file="dest_path_image001.GIF" wi="124" he="43" />计算出第k个主题在第j个时间段的标准化分配权值,标准化分配权值用来表征相应软件的主题在该时间段内的分配权重,公式中|Tj|表示第j个时间段内的消息文档总数,dij表示第j个时间段内的第i篇消息文档,dij[k]表示这篇消息文档中有关主题k的概率;步骤4‑2) 转化“主题‑单词”矩阵:将动态主题模型的输出其次转化为K个T*N的“主题‑单词”矩阵,T代表时间段,N代表不重复单词,并将每个矩阵的每一行按词频从大到小进行排序,并输出排在前10个的单词,在输出的“主题‑单词”矩阵中选择某个单词W,生成词频随时间变化的折线图。
地址 225009 江苏省扬州市开发区大学南路88号