发明名称 特征撷取、资料解密方法以及抄袭文章搜寻的系统与方法
摘要 一种抄袭文章搜寻的系统与方法。首先,对已植入浮水印的文章进行特征撷取,根据所取得的词汇输入搜寻引擎以搜寻相关可疑文章。接着将搜寻所得的文章与原文比对,根据比对结果取得之句子进行浮水印解析。最后,将所取得的浮水印资讯与原来的浮水印比对,然后根据比对结果判断该搜寻所得之文章是否为抄袭文章,若比对结果大于一临界值,则表示其为抄袭文章。
申请公布号 TWI262402 申请公布日期 2006.09.21
申请号 TW092134985 申请日期 2003.12.11
申请人 财团法人资讯工业策进会 发明人 张履平;谢文泰;陈文鋕;周世俊
分类号 G06F17/20 主分类号 G06F17/20
代理机构 代理人 洪澄文 台北市大安区信义路4段279号3楼;颜锦顺 台北市大安区信义路4段279号3楼
主权项 1.一种特征撷取方法,包括下列步骤:分析一文章中之句子,根据一自订规则对其中包含之词汇予以特性标记;将上述文章中包含隐藏有浮水印之词汇的句子自上述文章中取出;以及根据上述特性标记之词汇,搜寻网路上之文章以执行一解密程序。2.如申请专利范围第1项所述的特征撷取方法,其中,对上述词汇予以特性标记之步骤系对上述词汇予以断词及词性标注。3.如申请专利范围第1项所述的特征撷取方法,其中,在分析上述文章之步骤中,当一词汇之出现次数超过一临界値时即予以特性标记。4.如申请专利范围第1项所述的特征撷取方法,其中,以上述词汇及其词性做为查询依据,搜寻网路中之相关文章。5.如申请专利范围第1项所述的特征撷取方法,其更包括对搜寻到的文章进行浮水印解析。6.一种资料解密方法,其用以判断一文章是否为一抄袭文章,包括下列步骤:比对一文章与一可能抄袭之文章以取得至少一可能抄袭之句子,其中上述文章系为已植入浮水印之文章;分析上述已植入浮水印之文章以取得其浮水印资讯;根据上述已植入浮水印之文章之浮水印资讯解析上述可能抄袭之句子以取得上述可能抄袭之句子之浮水印资讯;对上述可能抄袭之句子之浮水印资讯进行错误纠正码修正;以及比对上述已植入浮水印之文章之浮水印资讯与上述修正后之浮水印资讯以取得一相似値。7.如申请专利范围第6项所述的资料解密方法,其中,上述浮水印资讯以单一码表示。8.如申请专利范围第6项所述的资料解密方法,其中,上述已植入浮水印之文章之浮水印资讯包含一同义句型资讯。9.如申请专利范围第6项所述的资料解密方法,其中,上述已植入浮水印之文章之浮水印资讯包含一同义词资讯。10.如申请专利范围第6项所述的资料解密方法,其中,在比对上述浮水印资讯之步骤中,当上述相似度大于一临界値,则表示上述可能抄袭之文章为一抄袭之文章。11.一种抄袭文章搜寻的方法,包括下列步骤:将一文章植入浮水印;根据一自订规则对上述文章执行特征撷取程序,以取得上述文章之特征;根据上述特征搜寻网路,以取得至少一可能抄袭之文章;执行一浮水印解析程序,以取得上述可能抄袭之文章其浮水印资讯;以及比对上述文章之浮水印资讯与上述可能抄袭之文章其浮水印资讯,以取得一相似値。12.如申请专利范围第11项所述的抄袭文章搜寻的方法,其中,上述特征撷取程序更包括下列步骤:分析上述文章中之句子,根据上述自订规则对其中包含之词汇予以特性标记;以及将上述文章中包含隐藏有浮水印之词汇的句子自上述文章中取出。13.如申请专利范围第11项所述的抄袭文章搜寻的方法,其中,上述浮水印解析程序更包括下列步骤:比对上述文章与上述可能抄袭之文章以取得至少一可能抄袭之句子,其中上述文章为已植入浮水印之文章;分析上述已植入浮水印之文章以取得其浮水印资讯;根据上述已植入浮水印之文章之浮水印资讯解析上述可能抄袭之句子以取得上述可能抄袭之句子之浮水印资讯;以及对上述可能抄袭之句子之浮水印资讯进行错误纠正码修正。14.如申请专利范围第11项所述的抄袭文章搜寻的方法,其中,上述浮水印资讯以单一码表示。15.如申请专利范围第11项所述的抄袭文章搜寻的方法,其中,上述已植入浮水印之文章之浮水印资讯包含一同义句型资讯。16.如申请专利范围第11项所述的抄袭文章搜寻的方法,其中,上述已植入浮水印之文章之浮水印资讯包含一同义词资讯。17.如申请专利范围第11项所述的抄袭文章搜寻的方法,其中,在比对上述浮水印资讯之步骤中,当上述相似度大于一临界値,则表示上述可能抄袭之文章为一抄袭之文章。18.一种抄袭文章搜寻的系统,包括:一搜寻引擎;一浮水印植入单元,其用以将一文章植入浮水印;一特征撷取单元,耦接于上述搜寻引擎与上述浮水印植入单元,其用以根据一自订规则对上述文章执行特征撷取程序,以取得上述文章之特征,并根据上述特征搜寻网路,以取得至少一可能抄袭之文章;以及一浮水印解析单元,耦接于上述浮水印植入单元与上述特征撷取单元,其用以执行一浮水印解析程序,以取得上述可能抄袭之文章其浮水印资讯,以及比对上述文章之浮水印资讯与上述可能抄袭之文章其浮水印资讯,以取得一相似値。19.如申请专利范围第18项所述的抄袭文章搜寻的系统,其中,上述特征撷取单元分析上述文章中之句子,根据上述自订规则对其中包含之词汇予以特性标记,以及将上述文章中包含隐藏有浮水印之词汇的句子自上述文章中取出。20.如申请专利范围第18项所述的抄袭文章搜寻的系统,其中,上述浮水印解析单元比对上述文章与上述可能抄袭之文章以取得至少一可能抄袭之句子,其中上述文章为已植入浮水印之文章,分析上述已植入浮水印之文章以取得其浮水印资讯,根据上述已植入浮水印之文章之浮水印资讯解析上述可能抄袭之句子以取得上述可能抄袭之句子之浮水印资讯,以及对上述可能抄袭之句子之浮水印资讯进行错误纠正码修正。21.如申请专利范围第18项所述的抄袭文章搜寻的系统,其中,上述浮水印资讯以单一码表示。22.如申请专利范围第18项所述的抄袭文章搜寻的系统,其中,上述已植入浮水印之文章之浮水印资讯包含一同义句型资讯。23.如申请专利范围第18项所述的抄袭文章搜寻的系统,其中,上述已植入浮水印之文章之浮水印资讯包含一同义词资讯。24.如申请专利范围第18项所述的抄袭文章搜寻的系统,其中,当上述相似度大于一临界値,则表示上述可能抄袭之文章为一抄袭之文章。图式简单说明:第1图系显示本发明之抄袭文章搜寻引擎之系统架构图。第2图系显示本发明之特征撷取方法之步骤流程图。第3图系显示本发明之资料解密方法之步骤流程图。第4图系显示本发明嵌入文章中之浮水印资讯,包括同义词资讯及同义句型资讯。第5图系显示本发明执行浮水印解析程序所得之可能抄袭之文章之浮水印资讯。第6图系显示本发明之错误纠正程序之示意图。
地址 台北市大安区和平东路2段106号11楼