发明名称 基于项权值变化的教育数据关联规则挖掘方法及其系统
摘要 一种基于项权值变化的教育数据关联规则挖掘方法及其系统,利用教育数据预处理模块进行预处理,构建课程信息库和课程项目库;利用教育数据课程候选项集产生及其剪枝模块从课程信息库产生教育数据课程候选项集,采用新的项集剪枝方法进行项集剪枝;利用教育数据课程频繁项集产生模块计算候选项集的项集权值,与最小权值频繁阈值比较,得到频繁项集;利用教育数据课程关联规则及结果显示模块产生频繁项集的全部真子集,通过其项集权值的简单计算和比较挖掘课程强关联规则模式,显示给用户使用。本发明具有良好的课程项集剪枝性能,其课程候选项集和挖掘时间明显减少,挖掘效率得到极大提高,其课程关联模式可为教学改革和教务管理提供科学依据。
申请公布号 CN104239430B 申请公布日期 2017.04.12
申请号 CN201410427495.6 申请日期 2014.08.27
申请人 广西教育学院 发明人 黄名选;韦吉锋
分类号 G06F17/30(2006.01)I;G06Q50/20(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广西南宁明智专利商标代理有限责任公司 45106 代理人 黎明天
主权项 一种基于项权值变化的教育数据关联规则挖掘方法,其特征在于,包括如下步骤:(1)教育数据预处理:将待处理的教育数据进行预处理:提取学生课程信息及其成绩,将课程当作项目,课程成绩当作项目权值,课程权值规范化为0至1之间,构建课程信息库和课程项目库;(2)挖掘教育数据课程频繁项集,包括以下步骤2.1和步骤2.2:(2.1)挖掘教育数据课程候选1_项集和频繁1_项集,具体步骤按照2.1.1和2.1.2进行:(2.1.1)从课程项目库中提取课程候选1_项集,在课程信息库累加全部课程项目权值总和,累加课程候选1_项集在课程信息库中的课程项集权值累加总和,计算课程候选1_项集的最小权值频繁阈值,若其项集权值大于或者等于最小权值频繁阈值,则该课程候选项集为频繁1_项集L<sub>1</sub>,将L<sub>1</sub>加入到课程频繁项集集合FIS;(2.1.2)在课程信息库中累加课程候选1_项集的出现频度,计算课程候选1_项集的课程项集权值期望;(2.2)挖掘教育数据课程候选k_项集和频繁k_项集,所述的k≥2,按照步骤2.2.1~2.2.8进行操作:(2.2.1)计算课程候选(k‑1)_项集的课程项集权值期望,删除课程候选(k‑1)_项集的项集权值小于其项集权值期望的课程候选(k‑1)_项集,得到新的课程候选(k‑1)_项集集合;(2.2.2)通过Apriori连接,将其频度不为0的课程候选(k‑1)_项集连接后生成课程候选k_项集;(2.2.3)如果课程候选k_项集不是空集,转入2.2.4步,否则,退出2.2步转入(3)步;(2.2.4)课程候选k_项集中,若存在一个其(k‑1)_项子集的项集权值小于其对应的项集权值期望,则将该课程候选k_项集删除,得到新的课程候选k_项集集合;(2.2.5)在课程信息库中累加课程候选k_项集的项集频度、项集权值及其课程项集权值期望;(2.2.6)删除其项集频度为0的课程候选k_项集,得到新的课程候选k_项集集合;(2.2.7)计算课程候选k_项集的最小权值频繁阈值,若课程候选项集的项集权值大于或者等于其最小权值频繁阈值,那么该课程候选项集是频繁的,加入到课程频繁项集集合FIS;(2.2.8)将k的值加1,循环2.2.1~2.2.7步骤,直到课程候选k_项集为空集,则退出2.2步转入如下(3)步;(3)从教育数据课程频繁项集集合FIS中挖掘课程强关联规则模式,包括以下步骤:(3.1)对于教育数据课程频繁项集集合FIS中的课程频繁i_项集L<sub>i</sub>,求出课程项集L<sub>i</sub> 的全部真子集,所述的i&gt;1;(3.2)对于课程项集L<sub>i</sub>的真子集集合中任意两个真子集I<sub>1</sub>和I<sub>2</sub>,并且<img file="FDA0001225066630000021.GIF" wi="208" he="55" />I<sub>1</sub>∪I<sub>2</sub>=L<sub>i</sub>,若(w<sub>12</sub>×k<sub>1</sub>)/(w<sub>1</sub>×k<sub>12</sub>)的值大于或者等于最小置信度阈值,则挖掘出课程强关联规则I<sub>1</sub>→I<sub>2</sub>;若(w<sub>12</sub>×k<sub>2</sub>)/(k<sub>12</sub>×w<sub>2</sub>)的值大于或者等于最小置信度阈值,则挖掘出课程关联规则I<sub>2</sub>→I<sub>1</sub>;所述的k<sub>1</sub>、k<sub>2</sub>和k<sub>12</sub>分别为课程项集I<sub>1</sub>、I<sub>2</sub>和(I<sub>1</sub>,I<sub>2</sub>)的项目个数,w<sub>1</sub>、w<sub>2</sub>和w<sub>12</sub>分别为I<sub>1</sub>、I<sub>2</sub>和(I<sub>1</sub>,I<sub>2</sub>)的项集权值;(3.3)继续3.2步骤,直到课程项集L<sub>i</sub>的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤3.4;(3.4)继续3.1步骤,当FIS中每个课程项集L<sub>i</sub>都被取出一次,而且仅能取出一次,则退出(3)步;至此,教育数据课程强关联规则模式挖掘结束。
地址 530023 广西壮族自治区南宁市建政路37号
您可能感兴趣的专利