发明名称 用于辨别文献之同名作者的系统及方法
摘要
申请公布号 申请公布日期 2011.09.11
申请号 TW096102644 申请日期 2007.01.24
申请人 国立台湾科技大学 发明人 李汉铭;江建毅;周家庆;黄嘉新
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 洪澄文 台北市大安区信义路4段279号3楼;颜锦顺 台北市大安区信义路4段279号3楼
主权项 一种用于辨别文献之同名作者的系统,其包括:一介面,其接收一文献集合C,其包含复数篇文献{C1,C2,...,CN},其中每一该文献其作者均包含一作者名称A;一特征集合产生器,其撷取该文献集合C{C1,C2,...,CN}中每一者所包含之文献特征资讯,并依据该文献特征资讯从网际网路中搜寻对应之网页,以决定该对应文献之网路特征资讯;一文献比较器,其选取该文献集合C中之该文献集合{C1,C2,...,CN}中任两篇文献,比较该两篇文献之特征集合,产生该两篇文献特征集合之相似度评分,并据以产生该两篇文献对应之成对向量;一二元分类器,依据该成对向量,将上述选取之任两篇文献指定为正关系或负关系,其中,该正关系表示该两篇文献之该作者名称A代表同一人,该负关系表示该两篇文献之该作者名称A不代表同一人;一聚类建立器,其依据该两篇文献为正关系或负关系,将该文献{C1,C2,...,CN}加以聚类,产生一初步聚类图形;一聚类图形过滤器,其依据该初步聚类图形的结构,除去该初步聚类图形上的桥接连结,以产生一最终聚类图形,其中归属于同一聚类的文献,其所包含之该作者名称A系代表同一人。如申请专利范围第1项所述之用于辨别文献之同名作者的系统,其中该文献特征资讯包含下列至少一者:该对应文献之共同作者名称、文献标题、及文献发表处。如申请专利范围第2项所述之用于辨别文献之同名作者的系统,其中该特征集合产生器撷取该文献标题中之关键字,并将该关键字还原为语干。如申请专利范围第2项所述之用于辨别文献之同名作者的系统,其中该特征集合产生器撷取该文献发表处中之关键字,并将该关键字还原为语干。如申请专利范围第1项所述之用于辨别文献之同名作者的系统,其中该特征集合产生器撷取搜寻得到之该网页的之统一资源位置(URL)作为该网路特征资讯。如申请专利范围第5项所述之用于辨别文献之同名作者的系统,其中该特征集合产生器将该网路特征资讯中具有预设之特定网域名称的统一资源位置删除。如申请专利范围第6项所述之用于辨别文献之同名作者的系统,其中该特征集合产生器将该网路特征资讯中具有数位图书馆之网域名称的统一资源位置删除。如申请专利范围第1项所述之用于辨别文献之同名作者的系统,其中该文献比较器使用余弦相似度评估法产生该两篇文献特征集合之相似度评分。如申请专利范围第1项所述之用于辨别文献之同名作者的系统,其中该二元分类器系经过一训练处理,其系利用一包含特定作者名称且该作者名称已确认代表同一人的文献集合,对该二元分类器进行训练,建立其进行二元分类的基本模型。一种用于辨别文献之同名作者的方法,其包括:接收一文献集合C,其包含复数篇文献{C1,C2,...,CN},其中每一该文献其作者均包含一作者名称A;撷取该文献集合C{C1,C2,...,CN}中每一者所包含之文献特征资讯,并依据该文献特征资讯从网际网路中搜寻对应之网页,以决定该对应文献之网路特征资讯,针对每一该文献,结合其对应之该文献特征资讯及该网路特征资讯为该文献之特征集合;撷取该文献集合C中之该文献{C1,C2,...,CN}中任两篇文献,比较该两篇文献之特征集合,产生该两篇文献特征集合之相似度评分,并据以产生该两篇文献对应之成对向量;依据该成对向量,将上述选取之任两篇文献指定为正关系或负关系,其中,该正关系表示该两篇文献之该作者名称A代表同一人,该负关系表示该两篇文献之该作者名称A不代表同一人;依据该两篇文献为正关系或负关系,将该文献{C1,C2,...,CN}加以聚类,产生一初步聚类图形;以及依据该初步聚类图形的结构,除去该初步聚类图形上的桥接连结,以产生一最终聚类图形,其中归属于同一聚类的文献,其所包含之该作者名称A系代表同一人。如申请专利范围第10项所述之用于辨别文献之同名作者的方法,其中该文献特征资讯包含下列至少一者:该对应文献之共同作者名称、文献标题、及文献发表处。如申请专利范围第11项所述之用于辨别文献之同名作者的方法,其撷取该文献标题中之关键字,并将该关键字还原为语干。如申请专利范围第11项所述之用于辨别文献之同名作者的方法,其撷取该文献发表处中之关键字,并将该关键字还原为语干。如申请专利范围第10项所述之用于辨别文献之同名作者的方法,其撷取搜寻得到之该网页的之统一资源位置(URL)作为该网路特征资讯。如申请专利范围第14项所述之用于辨别文献之同名作者的方法,其将该网路特征资讯中具有预设之特定网域名称的统一资源位置删除。如申请专利范围第15项所述之用于辨别文献之同名作者的方法,其将该网路特征资讯中具有数位图书馆之网域名称的统一资源位置删除。如申请专利范围第10项所述之用于辨别文献之同名作者的方法,其使用余弦相似度评估法产生该两篇文献特征集合之相似度评分。如申请专利范围第10项所述之用于辨别文献之同名作者的方法,其进一步执行一二元分类训练处理,其系利用一包含特定作者名称且该作者名称已确认代表同一人的文献集合,对该二元分类器进行训练,建立其进行二元分类的基本模型。
地址 台北市大安区基隆路4段43号