摘要 |
一种用于辨别网页资料中人名的系统。一网页收集器,其搜寻一电脑网路,找寻并储存包含一目标人名的复数初级网页资料。一链接架构分析器,其分析该初级网页资料中的标签资料,撷取该初级网页资料中包含的外部链接,据以建立该初级网页资料和该外部链接指向之次级网页资料之链接架构,将该链接架构和预设之网路基序比对,以决定上述初级网页资料之间的关联强度,并据以产生用以界定上述初级网页资料之间关联的一链接架构关联矩阵。一网页内容分析器,其从该复数初级网页资料中选取一初级网页资料,撷取该选取初级网页资料中包含的链结锚文字,并依据该链结锚文字在该复数初级网页资料中其他每一者的网页资料之内文比对,以决定选取之该初级网页资料和上述其他初级网页资料中每一者之间的关联强度,并据以产生用以界定上述初级网页资料之间关联的一内容关联矩阵。一网页资料分群器,其寻找上述链接架构关联矩阵及该内容关联矩阵中的递移包(transitive closure),并依据该递移包将该复数初级网页资料聚类,其中归属于同一聚类的初级网页资料,其所包含之该目标人名系代表同一人。 |