发明名称 文本集合可视化系统
摘要 一种计算机应用技术领域的文本集合可视化系统,包括:文本采集模块、中文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块,先通过文本采集模块、中文分词模块、特征词权重计算模块和XML文件组织模块构成本地数据库,然后通过可视化图形界面模块与本地数据库的接口交互,对用户的检索关键词图形化地显示结果。显示结果的呈现应用本发明提供的文档与多个关键词关联程度的可视化方式,并且向用户提供可在图形界面上拖曳关键词的交互操作来拓展定义关键词之间的语义关系,得到更好的效果。
申请公布号 CN100595762C 申请公布日期 2010.03.24
申请号 CN200810040145.9 申请日期 2008.07.03
申请人 上海交通大学 发明人 马颖华;苏贵洋;李建华;冯薇;李文婷
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海交达专利事务所 代理人 王锡麟;王桂忠
主权项 1、一种文本集合可视化系统,其特征在于,包括:文本采集模块、中文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块,其中:文本采集模块在互联网上搜集网页文本,将采集到的文本作为原始数据源传入中文分词模块;中文分词模块,对文本采集模块中得到的文本内容进行分词处理,获得以词为单位的语料,并统计词频,保存在本地文本,供后续的词语权重计算模块读取词频信息计算权重;词语权重计算模块,用于对分词后的结果进行特征抽取即特征词权重的计算,将计算结果连同对应的特征词,以及所在文本的标题交给XML文件组织模块;XML文件组织模块负责将词语权重计算模块传入的数据以设定的数据结构组织成XML文件保留在本地计算机,并为可视化图形界面模块提供读取文本数据结构化处理后的结果;可视化图形界面模块以上述XML文件组织模块保留在本地的结果数据为基本语料库,通过与用户的交互取得用户命令,并显示出结果;所述的文本采集模块,包括:下载子模块和存储子模块,其中:下载子模块首先从设定的根网址开始,根据根网址上提供的网页链接,进行设定层数的网页源文件抓取,同时剔除html标记和脚本代码,得到最初的文本内容,然后该模块调用存储子模块,将文本保存在设定的本地目录下,在每个文本保存前,首先判断在同一目录下是否存在与该文本来源相同的文本,若存在,则对该文本不进行保存;当采集工作结束后,调用所述的中文分词模块对上面保存的最初文本内容进行分词工作;所述的中文分词模块对采集到的大量中文文本进行分词,并去掉停止词,使之成为独立的特征词,并得到每个词语在每篇文章中的出现的频率,交给词语权重计算模块,所述停止词是指:介词或语气助词。
地址 200240上海市闵行区东川路800号