发明名称 基于字同现频率的主题抽取方法
摘要 一种基于字同现频率的主题抽取方法,属于信息处理领域。本发明以字为基本处理单元,首先对输入文本统计每个字出现的次数,删除出现次数只为一次的字和常用字,然后,通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,将统计结果保存在矩阵中,进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量,并经过权重调整后,最后进行主题句或段的排序和输出,从而实现主题句或段抽取。本发明克服了背景技术的缺陷,避开文本处理过程中的分词和抽词过程,使用该方法进行主题抽取,具有相当高的正确率,尤其是散文、诗歌等富含高级修辞手法的文体,第一主题句的正确率都达到半数以上。
申请公布号 CN1560762A 申请公布日期 2005.01.05
申请号 CN200410016555.1 申请日期 2004.02.26
申请人 上海交通大学 发明人 李建华;李生红;杨树堂;苏贵洋;马颖华;陆松年
分类号 G06F17/27 主分类号 G06F17/27
代理机构 上海交达专利事务所 代理人 王锡麟;王桂忠
主权项 1、一种基于字同现频率进行主题抽取的方法,其特征在于,以字为基本处理单元,首先对输入文本统计每个字出现的次数,删除出现次数只为一次的字和常用字,然后,通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,将统计结果保存在矩阵中,进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量,并经过权重调整后,最后进行主题句或段的排序和输出,从而实现主题句或段抽取。
地址 200240上海市闵行区东川路800号