发明名称 名称辨识及确认之方法
摘要 本发明系为一种名称辨识及确认之方法。首先系将一文章中之文字资料依据一文字段切割出至少一待测字串,并加以剖析待测字串之文法,以滤除不符合文法之待测字串;然后,使用假设检定来计算待测字串包括有名称资讯之可靠度,其中,可靠度系由假设待测字串具有名称资讯之机率、与假设待测字串不具有名称资讯之机率之比值所求得;若求得之可靠度大于一临界值,则待测字串中系包括有名称资讯。
申请公布号 TWI256562 申请公布日期 2006.06.11
申请号 TW091109292 申请日期 2002.05.03
申请人 财团法人工业技术研究院 发明人 林一中;洪鹏翔
分类号 G06F17/20;G06F17/30 主分类号 G06F17/20
代理机构 代理人
主权项 1.一种名称辨识及确认之方法,主要包括下列步骤: (A)将一文章中之文字资料依据一文字段切割出至 少一待测字串; (B)剖析该待测字串之文法以滤除不符合文法之待 测字串; (C)使用假设检定计算该待测字串包括有名称资讯 之可靠度,其中该可靠度系由假设该待测字串具有 名称资讯之机率与假设该待测字串不具有名称资 讯之机率的比値所求得;以及 (D)若该可靠度大于一给定临界値,则该待测字串中 系包括有名称资讯。 2.如申请专利范围第1项所述之名称辨识及确认之 方法,其中,该文字段系包括有复数个随机变数。 3.如申请专利范围第2项所述之名称辨识及确认之 方法,其中,该等随机变数系包括有一候选词以及 该候选词之前后文,且该待测字串之名称资讯系位 于该候选词之位置。 4.如申请专利范围第3项所述之名称辨识及确认之 方法,其中,该文字段为 ,当中, 为该候选词, 及 为 该候选词之前后文。 5.如申请专利范围第4项所述之名称辨识及确认之 方法,其中,于步骤(C)中,系根据奈曼-皮尔生定理以 计算该可靠度。 6.如申请专利范围第5项所述之名称辨识及确认之 方法,其中,该待测字串中是否包括有名称资讯之 可靠度为 ,当中, 为该待测字串中包括有名称资讯之机率, 为该待测字串中不包括名称资讯之机率。 7.如申请专利范围第6项所述之名称辨识及确认之 方法,其中,计算该可靠度之公式系包括有一名称 模型,用以计算 ,当中, 系近似于 ,且 系近似于 8.如申请专利范围第7项所述之名称辨识及确认之 方法,其中, 近似于 ,且 ,N为一正整数。 9.如申请专利范围第7项所述之名称辨识及确认之 方法,其中, 近似于 ,且 N为一正整数。 10.如申请专利范围第7项所述之名称辨识及确认之 方法,其中, 等于 ,且 近似于 ,当中,T为该待测字串 中一可能之剖析树,A→为该剖析树中之一文法 规则。 11.如申请专利范围第10项所述之名称辨识及确认 之方法,其中,该名称模型 为 12.如申请专利范围第6项所述之名称辨识及确认之 方法,其中,计算该可靠度之公式系包括有一非名 称模型,用以计算 ,当中, 为 ,且 近似于 ,N为一正整数。 13.如申请专利范围第12项所述之名称辨识及确认 之方法,其中,oR,j=oc,y+j if j = 0,-1,-2…,oC,j = oL,x+j if j = 0,-1,-2…,且 为 14.如申请专利范围第12项所述之名称辨识及确认 之方法,该非名称模型 为 15.如申请专利范围第4项所述之名称辨识及确认之 方法,其中,该候选词 为随机变数oc,1,…,oc,y所组成 之字串,且y为该候选词之字元数。 16.如申请专利范围第4项所述之名称辨识及确认之 方法,其中, 为随机变数oL,1,…,oL,x所组成之字串, 且x为字元数。 17.如申请专利范围第4项所述之名称辨识及确认之 方法,其中, 为随机变数所oR,1,…,oR,z所组成之字串 ,且z为字元数。 18.如申请专利范围第2项所述之名称辨识及确认之 方法,其中,每一随机变数系为一中文字元。 19.如申请专利范围第2项所述之名称辨识及确认之 方法,其中,每一随机变数系为一英文单字。 图式简单说明: 第1图:系本发明之名称辨识及确认之方法之流程 图。 第2图:系依据本发明根据文字段切割出一待测字 串之示意图。 第3图:系依据第2图之待测字串所形成之剖析树之 示意图。 第4图:系依据本发明计算待测字串包括有名称资 讯之可靠度之流程图。
地址 新竹县竹东镇中兴路4段195号
您可能感兴趣的专利