发明名称 以虚拟连结为基础的网页搜寻系统及方法
摘要 一种以虚拟连结为基础的网页搜寻系统及方法,用于一使用者于一搜寻引擎上搜寻网页,该网页搜寻系统包含一纪录模组、一分析模组及一评估模组。该纪录模组纪录一关键字及该关键字在一搜寻引擎上的搜寻结果,并蒐集搜寻结果成一基集合。该分析模组是根据使用者浏览该基集合的行为,选择该基集合中之部分网页而成一热门集合。该评估模组是由至少一网页建立连接到该热门集合中之每一网页的虚拟连结,并根据使用者的浏览行为,计算每一虚拟连结的权值,且利用权值来评估该热门集合中之每一网页与该关键字的相关性而产生一更新后的网页资源列表。
申请公布号 TWI253572 申请公布日期 2006.04.21
申请号 TW093106036 申请日期 2004.03.08
申请人 云义科技股份有限公司;国立台湾大学 NATIONAL TAIWAN UNIVERSITY 台北市大安区罗斯福路4段1号 发明人 林其;陈铭宪
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 恽轶群 台北市松山区南京东路3段248号7楼;陈文郎 台北市松山区南京东路3段248号7楼
主权项 1.一种以虚拟连结为基础的网页搜寻系统,适用于 一使用者于一搜寻引擎上搜寻网页,该网页搜寻系 统包含: 一纪录模组,纪录一关键字及该关键字在一搜寻引 擎上的搜寻结果,并蒐集每一搜寻结果所对应的网 页而成一基集合; 一分析模组,根据使用者浏览该基集合的行为,分 析并选择该基集合中之部分网页而成一热门集合; 及 一评估模组,由至少一不属于该热门集合内之网页 建立连接到该热门集合中之每一网页的虚拟连结, 并根据使用者浏览该基集合之网页的行为,来计算 每一虚拟连结的权値,且利用计算出之权値来评估 该热门集合中之每一网页与该关键字的相关性,并 依该相关性大小产生一更新后的网页资源列表。 2.依据申请专利范围第1项所述之网页搜寻系统,其 中该纪录模组更将经由超连结连结到该基集合中 之网页的上游网页一起纳入该基集合中。 3.依据申请专利范围第1项所述之网页搜寻系统,其 中该纪录模组更将由该基集合中之网页经由超连 结所连出的下游网页一起纳入该基集合中。 4.依据申请专利范围第1项所述之网页搜寻系统,其 中该分析模组是在一观察时间内,排除该基集合中 被一定比例以上的使用者跳过的网页,再从剩下的 网页中选取被一定比例以上之使用者浏览过的网 页而形成该热门集合。 5.依据申请专利范围第1项所述之网页搜寻系统,其 中该评估模组是先产生一虚拟网页并由该虚拟网 页建立连接到该热门集合中之每一网页的虚拟连 结。 6.依据申请专利范围第1项所述之网页搜寻系统,其 中该评估模组是先选取复数实体网页,并由该等实 体网页分别建立连接到该热门集合中之每一网页 的虚拟连结。 7.依据申请专利范围第1项所述之网页搜寻系统,其 中该评估模组在一初始观察期T1结束后,将依照下 列公式来计算每一虚拟连结的权値: 其中h=1,2,…,n,N(T1)为T1中观察到的使用者数目,而w1 ,w2,…,wn则分别为连到n个网页t1,t2,…,tn之虚拟连 结的权値。 8.依据申请专利范围第7项所述之网页搜寻系统,其 中该评估模组在T1之后的后续观察期Ti,i≧2,是依 照下列公式来计算每一虚拟连结之权値: 其中N(Ti)为观察期Ti中所观察到之使用者数目。 9.依据申请专利范围第1项所述之网页搜寻系统,其 中该评估模组更加入网页间实体连结的相关参数 来对网页的相关性作评估,且由参数来调整虚拟连 结与实体连结的影响程度。 10.依据申请专利范围第9项所述之网页搜寻系统, 其中该评估模组是利用一关联集中程度指数与每 一虚拟连结之权値来计算一代表网页相关性的专 属性指数,而每一网页的专属性指数与关联集中程 度指数是依照下列公式来计算: 其中xp、yp分别代表网页p之专属性指数与关联集 中程度指数,而q:(q, p) E意为存在网页q,其中含有超 连结连到网页p,而q':(q', p) E'则表示存在网页q',其 中含有虚拟连结连到网页p,而q:(p, q) E'意为网页p 含有超连结连到网页q,而q':(p, q') E'则表示网页p含 有虚拟连结连到网页q',且E与E'分别为实体连结与 虚拟连结的集合,而A与H为调整虚拟连结与实 体连结间之比重的系统参数。 11.一种以虚拟连结为基础的网页搜寻方法,适用于 一使用者于一搜寻引擎上搜寻网页,该网页搜寻方 法包含以下步骤: (A)纪录一关键字及该关键字在一搜寻引擎上的搜 寻结果,并蒐集每一搜寻结果所对应的网页而成一 基集合; (B)根据使用者浏览该基集合的行为,选择该基集合 中之部分网页而成一热门集合; (C)由至少一不属于该热门集合内之网页建立连接 到该热门集合中之每一网页的虚拟连结; (D)根据使用者浏览该基集合之网页的行为,来计算 每一虚拟连结的权値; (E)利用每一虚拟连结的权値,计算该热门集合中之 每一网页与该关键字的相关性;及 (F)依该相关性大小产生一更新后的网页资源列表 。 12.依据申请专利范围第11项所述之方法,其中该基 集合更包括经由超连结连结到该基集合中之网页 的上游网页。 13.依据申请专利范围第11项所述之方法,其中该基 集合更包括由该基集合中之网页经由超连结所连 出的下游网页。 14.依据申请专利范围第11项所述之方法,其中在步 骤(B)中,是在一观察时间内,排除该基集合中被一 定比例以上的使用者跳过的网页,再从剩下的网页 中选取被一定比例以上之使用者浏览过的网页而 形成该热门集合。 15.依据申请专利范围第11项所述之方法,其中在步 骤(C)中,是先产生一虚拟网页,并由该虚拟网页建 立连接到该热门集合中之每一网页的虚拟连结。 16.依据申请专利范围第11项所述之方法,其中在步 骤(C)中,是先选择出复数实体网页,并由该等实体 网页分别建立连接到该热门集合中之每一网页的 虚拟连结。 17.依据申请专利范围第11项所述之方法,其中在一 初始观察期T1结束后,每一虚拟连结之权値的计算 方式是依照下列的公式: 其中h=1,2,…,n,N(T1)为T1中观察到的使用者数目,而w1 ,w2,…,wn则分别为连到n个网页t1,t2,…,tn之虚拟连 结的权値。 18.依据申请专利范围第17项所述之方法,其中在T1 之后的后续观察期Ti,i≧2,每一虚拟连结之权値的 计算方式为: 其中N(Ti)为观察期Ti中所观察到之使用者数目。 19.依据申请专利范围第11项所述之方法,其中在步 骤(E)中,更加入网页间实体连结的相关参数来对网 页的相关性作评估,且由参数来调整虚拟连结与实 体连结的影响程度。 20.依据申请专利范围第19项所述之方法,其中在步 骤(E)中,是利用一关联集中程度指数与每一虚拟连 结之权値来计算一代表网页相关性的专属性指数, 每一网页的专属性指数与关联集中程度指数是依 照下列公式来计算: 其中xp、yp分别代表网页p之专属性指数与关联集 中程度指数,而q:(q, p) E意为存在网页q,其中含有超 连结连到网页p,而q':(q', P) E'则表示存在网页q',其 中含有虚拟连结连到网页p,而q:(p, q) E意为网页p含 有超连结连到网页q,而q':(p, q') E'则表示网页p含有 虚拟连结连到网页q',且E与E'分别为实体连结与虚 拟连结的集合,而A与H为调整虚拟连结与实体 连结间之比重的系统参数。 图式简单说明: 图1是本发明以虚拟连结为基础的网页搜寻系统及 方法之第一较佳实施例的系统方块图; 图2是一示意图,说明该第一较佳实施例之热门集 合的选法; 图3是一类似图2的视图; 图4是一示意图,说明该第一较佳实施例之虚拟中 心建立虚拟连结到该热门集合中之每一网页的连 结情形; 图5是该第一较佳实施例之方法流程图;及 图6是本发明以虚拟连结为基础的网页搜寻系统及 方法之第二较佳实施例的示意图,说明复数中心网 页分别建立虚拟连结到一热门集合中之每一网页 的情形。
地址 台北市中正区北平东路30号16楼