发明名称 定量联合规则的线上探究
摘要 一种定量联合规则线上探究的电脑方法,包含两个阶段,一预先处理阶段接着一线上规则产生阶段。所需要的计算工作,藉由预先处理阶段而减少,而该预先处理阶段所定义的预先处理资料来组织推论属性间的关系,以建立一阶层排列的多维索引架构。所产生的架构帮助第二阶段,涉及定量联合规则产生的线上处理之效能。此第二阶段,线上规则产生,系利用预先处理阶段透过先找出资料中符合规则的区域所产生的多维索引架构,然后再用一融合步骤来建立一合并树,以便仔细地结合有关区域来提供规则集合的一种阶层表示法。此合并树再真正地被用来产生规则。
申请公布号 TW505868 申请公布日期 2002.10.11
申请号 TW087112467 申请日期 1998.07.29
申请人 万国商业机器公司 发明人 查鲁雪那达艾格瓦;俞士纶
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 陈长文 台北巿敦化北路二○一号七楼
主权项 1.一种线上探究具有多笔记录的一大型资料库之方法,且每个记录有多个量化与分类项目以提供定量联合规则,其包含下列步骤:a)接收使用者定义的一最小可信度値,使用者定义的一最小基数値,使用者定义的一关心水准値,及一包含推论与结论属性的使用者查询;b)组织该推论与结论属性间的关联性;c)预先储存定义该推论属性的资料及与该结论属性相关之资料;d)因应该使用者查询由该预先储存的资料求出一答案。2.如申请专利范围第1项之方法,其中步骤b进一步包含阶层地分割该推论资料到一索引树,其中该索引树包含多个索引节点。3.如申请专利范围第1项之方法,该答案进一步包含一或多个定量联合规则,一与每个规则有关的实际可信度値,一与每个规则有关的实际基数値,及一与每个规则有关的重要程度。4.如申请专利范围第3项之方法,其中该定量联合规则只包含那些重要的规则,其中该重要的规则包括那些计算出的重要程度至少等于该使用者定义的重要程度。5.如申请专利范围第4项之方法,其中该重要程度定义成一第一与一第二计算出的商数中的最小値,其中该第一商数定义成实际可信度除以一期望可信度,而一第二商数定义成实际基数除以一期望基数,其中该期望可信度与基数是根据统计上独立的假设计算出的値。6.如申请专利范围第1项之方法,其中该推论属性进一步包含分类与量化属性。7.如申请专利范围第6项之方法,其中该量化层性进一步由包含一较低与一较高边界的范围定义。8.如申请专利范围第2项之方法,其中阶层地分割该推论资料到索引树的步骤,进一步包含:a)在该索引树的每个索引节点储存代表实际基数的一第一値;b)在该索引树的每个索引节点储存代表每个使用者查询结论属性发生频率的一第二値。9.如申请专利范围第1项之方法,其中的步骤d进一步包含:i)搜寻该索引树的所有索引节点以分离出推论属性范围与该使用者查询推论属性范围符合的节点;ii)由该等节点中选出满足步骤i基准者,其结论属性至少等于该使用者设定的最小可信度値;且iii)由该等满足步骤i与ii的基准之节点建立合并树。10.如申请专利范围第9项之方法,其中步骤iii进一步包含删除无意义节点并结合其他节点以建立该合并树。11.如申请专利范围第10项之方法,其中无意义节点是计算的可信度値未至少等于该使用者定义的最小可信度値的节点。12.如申请专利范围第10项之方法,其中合并树可建立单一或多个结论属性。13.一种电脑执行对具有多笔记录的一大型资料库线上探究之处理程序,每笔记录有多个量化与分类项目以提供定量联合规则,包含的步骤有:输入资料到电脑,包括一使用者定义的最小基数値,一使用者定义的最小可信度値,一使用者定义的重要程度値,及一包含一推论与结论条件的使用者查询,其中该推论与结论条件进一步包括多个量化与分类属性;在记忆体中建立一包含一或多个向度的索引树,其中每个向度由该推论条件中所包含的一个使用者提供的量化属性所定义,该索引树包含多个索引节点,其中该等索引节点进一步包含多笔资料记录;由该包含多个索引节点的索引树建立一未合并的规则树于记忆体中,其中该等索引节点进一步含多笔资料记录;由该包含多个索引节点的未合并的规则树建立一合并的规则树于记忆体中,其中该等索引节点进一步含多笔资料记录;由符合该使用者查询,且其基数至少等于该最小基数,其可信度至少等于该最小可信度,的那些节点产生出一或多个定量联合规则;及显示输出资料给使用者,包括:产生步骤的该等定量联合规则;与所产生的每个定量联合规则相关的实际可信度値;与所产生的每个定量联合规则相关的基数値;及与所产生的每个定量联合规则相关的重要程度値。14.如申请专利范围第13项之处理程序,其中产生定量联合规则的步骤被重复,以便该使用者查询交互地修正以进一步定义该联合规则。15.如申请专利范围第13项之处理程序,其中建立索引树的步骤进一步包括:1)建立一一或多向度的二元索引树,其中每个向度由一个使用者所提供的量化推论属性所定义;2)在每个索引节点储存该基数水准与可信度水准。16.如申请专利范围第13项之处理程序,其中建立未合并规则树的步骤包括:i)搜寻该索引树的每个节点;ii)选择包含的规则符合使用者设定的结论条件,且可信度至少等于该使用者定义的最小可信度値,而基数値至少等于该使用者定义的最小基数値的那些节点。17.如申请专利范围第16项之处理程序,其中步骤ii进一步包括:i)建立一指标;ii)将该指标设为该索引树的根节点;iii)将与该指标相关的该节点加到一表列中;iv)将该指标所指到,有推论属性整个包含在该使用者设定的推论属性参数中,且有一最小基数値至少等于该使用者定义的最小基数的节点的所有子节点加入;v)判断储存在该指标所指到节点的资料记录是否至少等于使用者设定的结论条件,且有一可信度至少等于该指标所指到节点的该使用者定义的最小可信度;vi)产生一与该结论条件相关的定量联合规则;vii)当前面步骤的条件不满足时由该表列中删除该节点;viii)判断该表列是否为空的;ix)当该表列为空时结束;x)当步骤ix的条件不成立时,将该指标设为该索引树的下一节点;及xi)当步骤ix的条件不成立时,重复步骤iii-x。18.如申请专利范围第1项之方法,其中建立合并的规则树的步骤包括:a)以左侧深度优先之顺序通过未合并规则树的每个节点;b)评估所通过未合并规则树中的每个节点以将其包括或排除,进一步包括:i)判断是否每个使用者定义的结论属性値大于储存在该节点的结论属性値;ii)当步骤i的条件成立时,将该节点保留在该合并规则树中;iii)当步骤i的条件不成立且该节点没有相关的子节点时,将该节点由该合并规则树中删除;iv)当步骤i的条件不成立且该节点有一子节点时,将该节点由该合并规则树中删除;v)当步骤i的条件不成立时,调整该结论属性的范围;vi)当步骤iv的条件成立时,直接联合一祖先节点与该被删除节点之子节点;及vii)重复步骤i-vi直到以左侧深度优先之顺序通过所有节点。图式简单说明:图1是本发明操作的电脑网路的整体描述。图2是本发明执行的方法的整体描述。它包含了图2(a)与图2(b)所描述的两个阶段。图2(a)是预先处理阶段的描述。图2(b)是此演算法线上阶段的描述。图3是如何利用推论集合建立索引树的详细描述。它可视为图2(a)中步骤75的展开。图4是如何从索引树产生分散的规则树的详细描述。它可视为图2(b)中步骤100的展开。图5是如何从分散的规则树建立合并的规则树的说明。图6是如何由使用者所界定关心程度r的合并规则树中产生出定量联合规则的说明。
地址 美国