发明名称 辨识语言文本难易度之系统及其方法
摘要 一种辨识语言文本难易度之系统及其方法,系依据所载入之文本的总字数、单字之难易度、文本中子句的比率及长句的比率这几个解析规则分析整篇文本,并将分析所得之结果与一难易度分级标准进行比对,以判别此语言文本之难易程度。
申请公布号 TWI281147 申请公布日期 2007.05.11
申请号 TW093141224 申请日期 2004.12.29
申请人 无敌科技股份有限公司 发明人 陈建安
分类号 G10L15/26(2006.01) 主分类号 G10L15/26(2006.01)
代理机构 代理人
主权项 1.一种辨识语言文本难易度之系统,其包含有: 一资料库,系用以储存一难易度分级标准及一字汇 分级字表; 一文本分析模组,系依据一解析规则分析组成一文 本之复数个句子、复数个单字及该文本中子句与 长句之比率,并根据该字汇分级字表判别各该单字 之难易度分级;及 一比对模组,系依据该文本之全文总字数、各该单 字所对应之难易度分级、该文本中子句之比率、 长句之比率及与该难易度分级标准进行比对,以判 别该文本之一难易度分级。 2.如申请专利范围第1项所述之辨识语言文本难易 度之系统,其中该难易度分级标准系依据该语言文 本之总字数判别该语言文本之难易度。 3.如申请专利范围第1项所述之辨识语言文本难易 度之系统,其中该难易度分级标准系依据各该单字 之难易度分级判别该语言文本之难易度。 4.如申请专利范围第1项所述之辨识语言文本难易 度之系统,其中该难易度分级标准系依据各该句子 中子句使用之多寡判别该语言文本之难易度。 5.如申请专利范围第1项所述之辨识语言文本难易 度之系统,其中该难易度分级标准系依据该语言文 本中长句使用之比率判别该语言文本之难易度。 6.如申请专利范围第1项所述之辨识语言文本难易 度之系统,其中该字汇分级字表系包含复数个字汇 及其相对应之难易度分级。 7.如申请专利范围第1项所述之辨识语言文本难易 度之系统,其中该解析规则系设定一预设字数,当 该句子之字数大于该预设字数时,则判定该句子系 为长句。 8.如申请专利范围第1项所述之辨识语言文本难易 度之系统,更包含一标示模组,以标示该文本中非 该难易度分级之单字。 9.一种辨识语言文本难易度之方法,其包含有下列 步骤: 载入一文本; 依据一解析规则分析组成该文本之复数个句子、 复数个单字及该文本中子句与长句之比率,并依据 一字汇分级字表判别各该单字之难易度分级;及 依据该文本之全文长度、该文本中子句之比率、 长句之比率及该文本中各该单字所对应之难易度 分级与一难易度分级标准进行比对,以判别该文本 之一难易度分级。 10.如申请专利范围第9项所述之辨识语言文本难易 度之方法,其中该难易度分级标准系依据该语言文 本之总字数判别该语言文本之难易度。 11.如申请专利范围第9项所述之辨识语言文本难易 度之方法,其中该难易度分级标准系依据各该单字 之难易度分级判别该语言文本之难易度。 12.如申请专利范围第9项所述之辨识语言文本难易 度之方法,其中该难易度分级标准系依据各该句子 中子句使用之多寡判别该语言文本之难易度。 13.如申请专利范围第9项所述之辨识语言文本难易 度之方法,其中该难易度分级标准系依据该语言文 本中长句使用之比率判别该语言文本之难易度。 14.如申请专利范围第9项所述之辨识语言文本难易 度之方法,其中该解析规则系设定一预设字数,当 该句子之字数大于该预设字数时,则判定该句子系 为长句。 15.如申请专利范围第9项所述之辨识语言文本难易 度之方法,其中该依据该文本之全文长度、该文本 中子句之比率、长句之比率及该文本中各该单字 所对应之难易度分级与一难易度分级标准进行比 对,以判别该文本之一难易度分级的步骤之后,更 包含标示该文本中非该难易度分级之单字。 图式简单说明: 第1图系为本发明之辨识语言文本难易度系统的系 统架构图; 第2图系为字汇分级字表之示意图; 第3图系为难易度分级标准基数表之示意图; 第4图系为难易度分级标准权重表之示意图; 第5图系为难易度分级操准表之示意图; 第6图系为本发明之辨识语言文本难易度之方法的 方法流程图。
地址 台北市内湖区瑞光路513巷36号10楼