发明名称 以数据降维法及非线性算则建构中文文本可读性模型的系统及其方法
摘要 一种以数据降维法及非线性算则建构中文文本可读性模型的系统及其方法。其中,此中文文本可读性模型包含:对中文文本作断词及词性标记处理的断词单元、根据断词及词性标记作文本可读性指标分析的可读性指标分析单元、及利用数据降维法及非线性算则所建构中文文本可读性模型的智能型算则单元。本发明可利用较少文本预测出较准确的中文文本的可读程度,以提供更合适的中文文本给不同阅读能力的读者阅读。
申请公布号 CN103530280A 申请公布日期 2014.01.22
申请号 CN201210226577.5 申请日期 2012.07.03
申请人 宋曜廷 发明人 宋曜廷;张道行;陈茹玲;李宜宪
分类号 G06F17/27(2006.01)I;G06F17/21(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 周长兴
主权项 一种以数据降维法及非线性算则建构一中文文本可读性模型的方法,该方法包含下列步骤:A)收集适合某一阅读能力的至少一中文文本,并与一语料库的中文字词句特性进行比对,以产生每一中文文本的复数个断词,且对应产生该复数个断词的词性标记,其中,每一中文文本皆具有至少一可读性指标;B)对每一中文文本的该复数个断词、及该复数个断词的词性标记进行分析,以通过计算产生该至少一可读性指标的指标数值;C)将该至少一可读性指标,通过该数据降维法找出至少一阅读理解构面,而该至少一阅读理解构面系代表该至少一可读性指标的线性组合;以及D)将该至少一阅读理解构面通过该非线性算则建构该中文文本可读性模型,以作为判断一待测中文文本是否适合该某一阅读能力阅读的依据。
地址 中国台湾台北市