发明名称 侦测资讯群集器之系统及方法
摘要 本发明揭示一种藉由侦测相关群集器或相关资料值以分析储存在一电脑资料库中资讯之系统及方法。储存在资料库中之资料值表示一物件集合。一资料值储存在资料库中作为一特性集合之范例以使物件特征化。诸特性系资料库之特性空间维度。各群集器不仅包含储存在资料库中相关资料值之子集,而且包含一特性子集。一群集器中之诸资料值是指一种资料值,当其投影至一子空间以对应群集器特性子集时,以度量表示时系以一短距离分开。可侦测含k个群集器之集合,以致群集器特性子集之平均特性数目为1。
申请公布号 TW455794 申请公布日期 2001.09.21
申请号 TW088104567 申请日期 1999.03.23
申请人 万国商业机器公司 发明人 恰鲁臣卓阿葛沃;裴里奥纳德沃夫;俞士纶
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 陈长文 台北巿敦化北路二○一号七楼
主权项 1.一种分析资讯之方法,资讯系由表示复数物件形成之复数资料値形式,该方法包含以下步骤:收集复数物件;识别一特性集合以特征化各复数物件;储存复数资料値在一资料库中,每一复数资料値根据该特性集合而对应复数物件之至少之一;藉由结合复数资料値与特性集合而侦测资料库中之资讯群集器集合。2.如申请专利范围第1项之方法,其中每一复数资料値系一n元组,对应于特性集合之一。3.如申请专利范围第1项之方法,其中根据每一复数资料値间之测量距离而侦测到该群集器集合,该复数资料値在与特性集合结合之子空间中。4.如申请专利范围第1项之方法,其中由复数资料値之第一集合及特性集合之第二集合组成之一对定义群集器集合之各群集器。5.如申请专利范围第4项之方法,其中一预设数目之群集器被侦测到,而侦测到之群集器集合具有一预设之平均特性数目。6.如申请专利范围第1项之方法,其中由连接到一电脑网路之伺服器收集复数物件,伺服器包含一资料储存单元及一中央处理单元。7.如申请专利范围第1项之方法,其中藉由特性集合之实体测量而得到复数资料値之每一者,其对应复数物件之至少一者,以特征化复数物件之各物件。8.如申请专利范围第1项之方法,其中以文字形式显示资料库中侦测到之资讯群集器集合。9.如申请专利范围第1项之方法,其中以图形形式显示资料库中侦测到之资讯群集器集合。10.如申请专利范围第1项之方法,其中侦测资料库中之资讯群集器集合包含以下步骤:(a)从复数资料値产生一中心集合;(b)将中心集合中之各中心集合与特性集合结合;以及(c)藉由指派复数资料値给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合。11.如申请专利范围第10项之方法,其中侦测资料库中之资讯群集器集合更包含以下步骤:藉由从中心集合删除中心集合之中心而产生新的中心集合,并且将复数资料値之一加入中心集合;以及藉由重覆该等步骤(a)-(c)而形成一新的资讯群集器集合,其在资料库中侦测到,俾在其中以新的中心集合取代中心集合。12.如申请专利范围第10项之方法,其中藉由随机选择复数资料値之一而产生中心集合。13.如申请专利范围第10项之方法,其中藉由计算复数距离而将中心集合之各中心与特性集合结合,该距离系从中心集合之各中心相对于特性集合,至中心集合之各中心之相邻区域中之资料値集合。14.如申请专利范围第13项之方法,其中中心集合之各中心与特性集合结合,其对应复数距离之一距离,该距离系从中心集合之各中心相对于特性集合,至中心集合之各中心之相邻区域中之资料値集合。15.如申请专利范围第10项之方法,其中侦测资料库中之资讯群集器集合更包含以下步骤:藉由从中心集合删除中心集合之中心而产生新的中心集合,并且将复数资料値之一加入中心集合;以及重覆该等步骤(a)及(b)俾在其中以新的中心集合取代中心集合,及惟若相对于新的中心集合评估之目标函数小于相对于中心集合评估之目标函数,才重覆该步骤(c)以形成资料库中侦测到之新的资讯群集器集合。16.如申请专利范围第15项之方法,其中根据复数距离以相对于中心集合而评估目标,相对于与中心集合之各中心结合之特性集合而评估,其在中心集合之各中心与复数资料値及复数维度値之间,复数维度値之每一者对应与中心集合之各中心结合特性集合,及根据复数新距离以相对于新的中心集合而评估目标,相对于与新中心集合之各新的中心结合之特性集合而评估,其在新中心集合之各新的中心与复数资料値及复数新维度値之间,复数新维度値之每一者对应与新中心集合之各新的中心结合特性集合。17.如申请专利范围第10项之方法,其中根据一距离测量并藉由指派复数资料値给中心集合之各中心,而形成在资料库中侦测到之群集器集合,该测量系相对于特性集合而在复数资料値与中心集合之各中心之间。18.如申请专利范围第1项之方法,其中侦测资料库中之资讯群集器集合包含以下步骤:(a)从复数资料値之每一者产生一中心集合;(b)将中心集合之各中心集合与特性集合结合;以及(c)藉由指派复数资料値之每一者给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合;(d)藉由从中心集合删除中心集合之中心而产生新的中心集合,并且将复数资料値之一加入中心集合;(e)重覆该等步骤(a)及(b)俾在其中以新的中心集合取代中心集合,及若相对于新的中心集合评估之目标函数小于相对于中心集合评估之目标函数,才重覆该步骤(c)以形成资料库中侦测到之新的资讯群集器集合;(f)重覆该等步骤(d)及(e)复数次直到相对于新中心集合评估之目标函数,在复数次之预设次数中大于或等于相对于中心集合评估之目标函数。19.如申请专利范围第1项之方法,其中侦测资料库中之资讯群集器集合更包含以下步骤:从复数资料値产生一中心集合;以及从复数资料値之资料库中删除具有一部分距离之资料値,其系来自大于一预设最大部分値之中心集合之每一者。20.一种制造物件,包含一电脑可使用之媒体,该媒体具有实施其中用以分析资讯之电脑可读取程式码装置,其系复数资料値形式以表示复数物件,该制造物件中之电脑可读取程式码装置包含电脑可读取程式码装置,用以使一电脑实现:收集复数物件;识别一特性集合以特征化各复数物件;储存复数资料値在一资料库中,每一复数资料値根据该特性集合而对应复数物件之至少之一;藉由结合复数资料値与特性集合而侦测资料库中之资讯群集器集合。21.如申请专利范围第20项之制造物件,其中由复数资料値之第一集合及特性集合之第二集合组成之一对定义群集器集合之各群集器。22.如申请专利范围第21项之制造物件,其中一预设数目之群集器被侦测到,而侦测到之群集器集合具有一预设之平均特性数目。23.如申请专利范围第20项之制造物件,该制造物件中之电脑可读取程式码装置更包含电脑可读取程式码装置,用以使一电脑实现:(a)从复数资料値产生一中心集合;(b)将中心集合之各中心集合与特性集合结合;以及(c)藉由指派复数资料値之每一者给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合。24.如申请专利范围第20项之制造物件,该制造物件中之电脑可读取程式码装置更包含电脑可读取程式码装置,用以使一电脑实现:(a)从复数资料値产生一中心集合;(b)将中心集合之各中心集合与特性集合结合;以及(c)藉由指派复数资料値之每一者给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合;(d)藉由从中心集合删除中心集合之中心而产生新的中心集合,并且将复数资料値之一加入中心集合;(e)重覆该等步骤(a)及(b)俾在其中以新的中心集合取代中心集合,及若相对于新的中心集合评估之目标函数小于相对于中心集合评估之目标函数,才重覆该步骤(c)以形成资料库中侦测到之新的资讯群集器集合;(f)重覆该等步骤(d)及(e)复数次直到相对于新中心集合评估之目标函数,在复数次之预设次数中大于或等于相对于中心集合评估之目标函数。25.一种电脑程式产品,包含一电脑可使用之媒体,该媒体具有实施用以资讯分析其中之电脑可读取程式码装置,其系复数资料値形式以表示复数物件,该电脑程式产品中之电脑可读取程式码装置包含电脑可读取程式码装置,用以使一电脑实现:收集复数物件;识别一特性集合以特征化各复数物件;储存复数资料値在一资料库中,每一复数资料値根据该特性集合而对应复数物件之至少之一;藉由结合复数资料値与特性集合而侦测资料库中之资讯群集器集合。26.如申请专利范围第25项之电脑程式产品,其中由复数资料値之第一集合及特性集合之第二集合组成之一对定义群集器集合之各群集器。27.如申请专利范围第26项之电脑程式产品,其中一预设数目之群集器被侦测到,而侦测到之群集器集合具有一预设之平均特性数目。28.如申请专利范围第25项之电脑程式产品,该电脑程式产品中之电脑可读取程式码装置更包含电脑可读取程式码装置,用以使一电脑实现:(a)从复数资料値产生一中心集合;(b)将中心集合之各中心集合与特性集合结合;以及(c)藉由指派复数资料値之每一者给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合。29.如申请专利范围第25项之电脑程式产品,该电脑程式产品中之电脑可读取程式码装置更包含电脑可读取程式码装置,用以使一电脑实现:(a)从复数资料値产生一中心集合;(b)将中心集合之各中心集合与特性集合结合;以及(c)藉由指派复数资料値之每一者给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合;(d)藉由从中心集合删除中心集合之中心而产生新的中心集合,并且将复数资料値之一加入中心集合;(e)重覆该等步骤(a)及(b)俾在其中以新的中心集合取代中心集合,及若相对于新的中心集合评估之目标函数小于相对于中心集合评估之目标函数,才重覆该步骤(c)以形成资料库中侦测到之新的资讯群集器集合;(f)重覆该等步骤(d)及(e)复数次直到相对于新中心集合评估之目标函数,在复数次之预设次数中大于或等于相对于中心集合评估之目标函数。30.一种机器可读取之储存装置,实质地实施机器可执行之指令程式,以执行复数方法步骤用以分析资讯,资讯系由表示复数物件形成之复数资料値形式,该方法包含以下步骤:收集复数物件;识别一特性集合以特征化各复数物件;储存复数资料値在一资料库中,每一复数资料値根据该特性集合而对应复数物件之至少之一;藉由结合复数资料値与特性集合而侦测资料库中之资讯群集器集合。31.如申请专利范围第30项之程式储存装置,其中由复数资料値之第一集合及特性集合之第二集合组成之一对定义群集器集合之各群集器。32.如申请专利范围第31项之程式储存装置,其中一预设数目之群集器系被侦测到,而侦测到之群集器集合具有一预设之平均特性数目。33.如申请专利范围第30项之程式储存装置,其中侦测资料库中之资讯群集器集合包含以下步骤:(a)从复数资料値产生一中心集合;(b)将中心集合之各中心集合与特性集合结合;以及(c)藉由指派复数资料値之每一者给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合。34.如申请专利范围第30项之程式储存装置,其中侦测资料库中之资讯群集器集合包含以下步骤:(a)从复数资料値产生一中心集合;(b)将中心集合之各中心集合与特性集合结合;以及(c)藉由指派复数资料値之每一者给中心集合之各中心集合,而形成在资料库中侦测到之群集器集合;(d)藉由从中心集合删除中心集合之中心而产生新的中心集合,并且将复数资料値之一加入中心集合;(e)重覆该等步骤(a)及(b)俾在其中以新的中心集合取代中心集合,及若相对于新的中心集合评估之目标函数小于相对于中心集合评估之目标函数,才重覆该步骤(c)以形成资料库中侦测到之新的资讯群集器集合;(f)重覆该等步骤(d)及(e)复数次直到相对于新中心集合评估之目标函数,在复数次之预设次数中大于或等于相对于中心集合评估之目标函数。图式简单说明:第一图(a)及第一图(b)是两个不同特性子空间中群集器的图形。第二图的流程图用以解释一种根据本发明的典型实施例以分析资料库中的资讯的方法。第三图至第六图的流程图用以解释一种根据本发明的典型实施例以分析资料库中的资讯的方法。第七图是一装置的方块图用以分析一电脑网路上收集的资讯,其根据本发明的典型实施例。
地址 美国