发明名称 自连结本文隔离字之方法
摘要 本发明描述一种程序,用来以机械方式分析连结的中文本文并隔离包括该本文之字。该程序使用一字典,处理标点的直接规则、一种用来透过可消除不合理区隔之愈来愈严格的过滤机制对输入本文在一中文本文字串内辨识所有字并将重叠的字分解成一组相邻字的方法、及一种解决含混性的方法。
申请公布号 TW261677 申请公布日期 1995.11.01
申请号 TW083101864 申请日期 1994.03.03
申请人 万国商业机器公司 发明人 安东尼.查莫拉
分类号 G06F15/38;G06F15/62 主分类号 G06F15/38
代理机构 代理人 陈长文 台北巿敦化北路二○一号七楼
主权项 1.一种在一资料处理系统内自连结的本文隔离字 的方法, 该方法包括下列步骤: 读取一本文输入字串; 辨识输入字串内所有的字; 执行一第一邻接程序; 执行一恢复程序; 执行一数字程序; 执行一第二邻接程序; 输出一序列经隔离之具有被指示的分隔之字。2. 一种用于一具有输入及输出之电脑系统内的方法, 该方 法使用一资料结构以辨识来自输入本文之字,该方 法系包 含: 匹配所有以字的形式储存在一参考字典中的输入 本文之次 字串; 将任何未被该字典字包含的字元标记为单一字元 字; 藉扫描资料结构内每一项的方式辨识重叠的字并 消除未连 接至邻接字的字;和 若一项不代表为输入本文之开头或由另一字前置, 则将该 项标记为删除。3.如申请专利范围第2项之方法,尚 包含: 藉一反覆程序将重叠的字分解成相邻的字,该反覆 程序辨 识不包含于未删除字内的所有字元,且对每一个这 种字元 恢复一包含此字元的被删除字。4.如申请专利范 围第3项之方法,尚包含: 将数字字串合并,该合并程序包括邻接全数字字串 之辨识 及连续全数字字串之资料结构项的产生。5.如申 请专利范围第3项之方法,尚包含: 藉扫描资料结构内每一项并在该项不代表一具有 某特性之 字时而标记该项标记为删除,该某特性系指该字既 是输入 本文的开端或其前置有一未删除字,又是输入本文 的末端 或其后跟随有另一未删除字。6.如申请专利范围 第5项之方法,尚包含: 以辨识及产生程序辨识含混的位置与范围,该程序 包括扫 描资料结构重覆程序以便找寻有关于输入本文字 串之相同 位置的多重项,并产生对应于资料结构内每个替代 性字串 之输出资料结构且回归地将邻接字附接至较小的 字串直到 所有字串长度相等之反覆程序。图示简单说明: 图1显示经过一字典查寻程序之后的资料结构。 图2显示经过一第一邻接程序之后的资料结构。 图3显示经过一第二邻接程序之后的资料结构。 图4显示经过一第二邻接程序之后未被删除的字。 图5显示执行本发明之方法的作业步骤顺序之流程 图。 图6显示待处理字串的第一种范例。 图7显示待处理字串的第二种范例。
地址 美国