发明名称 一种文本特征线及其提取方法
摘要 本发明属文本分析领域。具体涉及一种文本特征线及其提取方法。所述的文本特征线体为二维坐标系中的不规则曲线,该坐标系的横轴表示词,按该词在文本中出现的顺序排列;纵坐标表示文本中的段落,按该段落位置先后顺序排列;坐标系中的一个点表示相应的段落中出现了某个词,所述点构成描述过程动态性的特征线。本发明能反映文本中各个段落在描述话题时引入新词语的速度,反映文本中话题描述的动态性,和反映文本及作者兴趣的特征。本发明所提出文本特征线可为各种文本话题分析任务提供新的特征选择方法及分析思路。
申请公布号 CN102193910A 申请公布日期 2011.09.21
申请号 CN201010125010.X 申请日期 2010.03.12
申请人 复旦大学 发明人 曾剑平;吴承荣
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 包兆宜
主权项 一种文本特征线,其特征在于,所述的文本特征线体为二维坐标系中的不规则曲线,该坐标系的横轴表示词,该坐标系的纵坐标表示文本中的段落,坐标系中的一个点表示相应的段落中出现了某个词。
地址 200433 上海市邯郸路220号