发明名称 基于插曲网络之实体库自动建构方法及系统
摘要 本发明系一种基于插曲网络之实体库自动建构方法及系统,主要系先将中文文件进行断词及标注词性、并依据规则重组获得领域新词,次过滤无意义之断词且进行聚类处理,再以资料探勘技术提取插曲,再藉由一插曲网络提取处理单元,依据各插曲组成之集合建构一包括有概念节点及连结的插曲网络,藉以持续比对各节点间的连结与插曲网络之资料结构,完成插曲网络之建构,最后依据插曲网络各概念节点比对一记录有词性之对应关系的对应表,分别将属性、操作及关联置入相对应的概念中,故可撷取中文文件中之专有词汇,用以建构出一完整正确的实体库架构。
申请公布号 TWI275009 申请公布日期 2007.03.01
申请号 TW093125977 申请日期 2004.08.30
申请人 永洋科技股份有限公司 发明人 陈盈旭;李健兴;郭耀煌;许振鹏;王进苍
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人 林镒珠 台北市中山区长安东路2段112号9楼
主权项 1.一种基于插曲网络之实体库自动建构系统,其主 要包括有: 一断词及标注词性处理单元,以断词系统将输入之 中文文件进行断词及标注词性之动作; 一领域新词组合处理单元,依据词性规则及各断词 相互之间的出现次数,将断词重组获得领域新词; 一特征词性处理单元,过滤无意义之断词,保留词 性为名词及动词之断词; 一概念提取处理单元,分析词与词之间的关系强度 将属同概念之实例予以聚类; 一插曲提取处理单元,利用资料探勘技术撷取中文 文件中之插曲; 一插曲网络提取处理单元,将撷取之各插曲组合成 一集合,依据该集合建构一具有概念节点及连结的 插曲网络,其连结上分析插曲于文件中出现次数而 产生权重値,且持续比对各节点间的连结与插曲网 络之资料结构,藉以进行新增节点、权重値更新步 骤完成插曲网络之建构; 一提取属性、操作、关联之处理单元,依据插曲网 络以其各概念节点产生的集合,且配合比对一记录 有词性之词汇适任之角色及其对应关系的对应表, 分别将属性、操作及关联置入相对应的概念中完 成实体库之建构。 2.如申请专利范围第1项所述之基于插曲网络之实 体库自动建构系统,其中,领域新词组合处理单元 获得之领域新词储存于一知识库单元,藉以作为断 词之参考依据。 3.如申请专利范围第2项所述之基于插曲网络之实 体库自动建构系统,其中,知识库单元中设置储存 领域新词之新词储存资料库,以及作为分析中文文 件之参考依据的知网。 4.如申请专利范围第1、2或3项所述之基于插曲网 络之实体库自动建构系统,其中,该实体库自动建 构系统中设置数资料库,作为储存各处理单元运作 获得之名词、动词、概念、插曲及插曲网络等资 料。 5.如申请专利范围第1、2或3项所述之基于插曲网 络之实体库自动建构系统,其中,领域新词组合处 理单元之词性规则表中之规则包括有:"非谓形容 词+普通名词"、"普通名词+地方名词"、"地方名词+ 普通名词"、"地方名词+普通名词+地方名词"、"地 方名词+普通名词+普通名词"、"动作单宾述词+普 通名词+动作单宾述词+普通名词"。 6.如申请专利范围第4项所述之基于插曲网络之实 体库自动建构系统,其中,领域新词组合处理单元 之词性规则表中之规则包括有:"非谓形容词+普通 名词"、"普通名词+地方名词"、"地方名词+普通名 词"、"地方名词+普通名词+地方名词"、"地方名词+ 普通名词+普通名词"、"动作单宾述词+普通名词+ 动作单宾述词+普通名词"。 7.如申请专利范围第1、2或3项所述之基于插曲网 络之实体库自动建构系统,其中,插曲提取处理单 元主要系依据资料探勘技术中的大项目集合概念, 将中文文件视为一个连续出现的词汇序列,并将文 件中的每一个句子分别视为一笔记录,再从各记录 中提取固定范围以内的大项目集合,藉以撷取中文 文件中之插曲。 8.如申请专利范围第6项所述之基于插曲网络之实 体库自动建构系统,其中,插曲提取处理单元主要 系依据资料探勘技术中的大项目集合概念,将中文 文件视为一个连续出现的词汇序列,并将文件中的 每一个句子分别视为一笔记录,再从各记录中提取 固定范围以内的大项目集合,藉以撷取中文文件中 之插曲。 9.如申请专利范围第1、2或3项所述之基于插曲网 络之实体库自动建构系统,其中,断词及标注词性 处理单元以中研院研发之断词系统(CKIP)进行断词 及标注词性动作。 10.如申请专利范围第1、2或3项所述之基于插曲网 络之实体库自动建构系统,其中,概念提取处理单 元以名词之出现率乘以文件出现率反函数,提取所 获之値较高的名词分析任二名词之间的关系强度, 再以类神经网路中的非监督式学习模式将属同概 念的实例聚集于同一类。 11.一种基于插曲网络之实体库自动建构方法,包括 下列步骤: 将一中文文件以断词系统进行断词及标注词性之 动作; 依据词性规则及各断词相互之间的出现次数,将断 词予以重组获得领域新词; 以过滤手段过滤掉无意义之断词,且保留词性为名 词及动词之断词; 分析词与词之间的关系强度将属同概念之实例予 以聚类; 利用资料探勘技术撷取中文文件中之插曲; 将撷取之各插曲视为一集合,依据该集合建构一具 有概念节点及连结的插曲网络,其连结上分析插曲 于文件中出现次数而产生权重値,且持续比对各节 点间的连结与插曲网络之资料结构,藉以进行新增 节点、权重値之更新步骤以完成插曲网络之建构; 依据插曲网络之各概念节点所产生的集合,配合比 对一记录有词性之词汇适任之角色及其对应关系 的对应表,分别将属性、操作及关联置入相对应的 概念中完成实体库之建构。 12.如申请专利范围第11项所述之基于插曲网络之 实体库自动建构方法,其中,该插曲网络提取处理 单元用以建构插曲网络的演算法,其主要包含初始 设定及运算程序: 初始设定程序; 将大量中文文件中撷取出的衆多插曲(episode)组合 成一个插取之集合"SES={1,2,...,n}",系供于集 合中建构一个插曲网络("EN=(V',A)"); 令各插曲网络由一群概念节点(concept node)与概念 节点间的连结所构成,其中各连结上皆有一个权重 値,该权重値为插曲在大量中文文件中出现的次数 ; 设定一个建构插曲网络之所有概念节点的集合(V') ,设定各概念节点间的所有连结之集合(A),以及设 定一个代表某一个插曲i中所有节点的集合(Vi), 以使得插曲网络中的一个概念节点,即为一个插曲 中的一个节点; 运算程序 令V'与A为空集合,以提取一个插曲,针对该插曲中 的每个节点及各节点之间的连结,进而与插曲网络 内的资料结构进行比对; 倘若节点并未存在于V'中,则新增此节点于V'; 倘若节点间的连结并未出现在A中,则将节点间的 连结及权重値加入A中; 倘若节点间的连结已经存在于A中,则将此节点间 的权重値进行更新,并更新为原先插曲网络连结上 的权重値加上插曲连结上的权重値; 持续该动作直到比对完所有插曲,即可建构成为一 个完整的插曲网络。 13.如申请专利范围第12项所述之基于插曲网络之 实体库自动建构方法,其中,该插曲网络中用以评 估概念节点间上下文语意关联之公式为: 14.如申请专利范围第13项所述之基于插曲网络之 实体库自动建构方法,其中,该提取属性、操作、 关联之处理单元用以提取属性、操作及关联的演 算法系包含有初始设定程序及演算程序: 初始设定程序: 设定插曲网络中的每个概念节点为cni,故V'为所有 cni所产生的集合;其中,部份概念节点cni会于之前 聚类的过程中被聚类为某一个概念,这些即被视为 一个概念之实体的节点且表示为ini;及 设定一对应表(Table),该对应表记录某些词性之词 汇适合担任实体库中的何种角色及其对应关系,该 角色可为属性、操作或关联; 运算程序: 先提取一个ini,针对该ini所指到的其他cni比对Table 中的词性; 倘若cni之词性于Table中记录为适合担任"属性"的角 色,则将cni放入ini的属性中,并同时将cni放入ini所 对应之概念的属性中; 倘若Table中记录为该词性适合担任"操作"的角色, 则将cni放入ini的操作中,并同时将cni放入ini所对应 之概念的属性中; 倘若一个ini指向一个cni,且该cni又指向另一个inj, 另于Table之记录中,该cni之词性适合担任关联的角 色,则该cni加入ini与inj之间的关联,并加入ini与inj 所隶属之二概念间的关联; 以上述步骤浏览过所有的ini以及所有指向之节点 后,再利用前述"ASSOC()评估函数"滤除不适合的属性 、操作、关联。 15.如申请专利范围第11、12、13或14项所述之基于 插曲网络之实体库自动建构方法,其中,取得领域 新词之词性规则包括有:"非谓形容词+普通名词"、 "普通名词+地方名词"、"地方名词+普通名词"、"地 方名词+普通名词+地方名词"、"地方名词+普通名 词+普通名词"、"动作单宾述词+普通名词+动作单 宾述词+普通名词"。 16.如申请专利范围第11、12、13或14项所述之基于 插曲网络之实体库自动建构方法,其中,该断词及 标注词性动作系利用中研院研发之断词系统(CKIP) 进行。 17.如申请专利范围第11、12、13或14项所述之基于 插曲网络之实体库自动建构方法,其中,该概念之 实例的聚类手段,主要系以名词之出现率乘以文件 出现率反函数,提取所获之値较高的名词,且分析 任二名词之间的关系强度,再以类神经网路中的非 监督式学习模式将属同概念的实例聚集于同一类 。 18.如申请专利范围第11、12、13或14项所述之基于 插曲网络之实体库自动建构方法,其中,该撷取中 文文件中之插曲手段,主要系依据资料探勘技术中 的大项目集合概念,将中文文件视为一个连续出现 的词汇序列,并将文件中的每一个句子分别视为一 笔记录,再从各记录中提取固定范围以内的大项目 集合,藉以撷取中文文件中之插曲。 图式简单说明: 第一图系本发明系统之工作流程图。 第二图系本发明之领域新词词性规则范例表。 第三图系本发明提取完成之插曲范例列表。 第四图系本发明建构完成之插曲网络示意图。 第五图系习知实体库之主要元素架构示意图。
地址 台南县永康市环工路32号
您可能感兴趣的专利