发明名称 中文网路资讯监测分析系统及其方法
摘要 系揭露一种中文网路资讯监测分析系统及其方法,藉由连接网际网路之包含词库储存装置、电脑运算装置及资料库储存装置的中文网路资讯监测分析系统来提供使用者之电子通讯装置的连结,其系经过网页资料的撷取、分类后,将产生之代表网页资讯的特征词句及其权值储存于资料库储存装置,以作为被比对的对象,本发明可根据使用者所提交之中文目标资讯选择目标的特征资讯,根据特征资自动在网际网路上搜集资料,并对所搜集到的网页资料进行分类整理并导入资料库,藉由系统的自动运行与更新,提供个性化之中文网路资讯的搜寻服务。
申请公布号 TWI534640 申请公布日期 2016.05.21
申请号 TW102115477 申请日期 2013.04.30
申请人 李钟彬 发明人 李钟彬
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人 赖安国;王立成
主权项 一种中文网路资讯监测分析系统,系用于根据使用者之电子通讯装置所提交之至少一中文目标资讯,进行网际网路上之监测分析,包含:一词库储存装置,系内储存有复数中文分词表资讯、复数中文同义词资讯、复数中文蕴含词资讯;一电脑运算装置,系连结该词库储存装置,包含:一目标资讯处理模组,系接收该至少一中文目标资讯;一网路资讯处理分析模组,系于该网际网路进行搜寻及产生分析结果,包含:一网路资讯撷取单元,系于该网际网路上进行网页资料的撷取;一断词断句处理单元,系用于对所撷取之该网页资料依据标点符号及该等中文分词表资讯进行断词断句之第一阶处理,再依据最大匹配法进行第二阶处理,以产生对应网页之断词断句结果;一词频处理单元,系根据该等中文同义词资讯及该等中文蕴含词资讯,于该断词断句结果中计数对应之词句的出现频率,以产生对应网页之一词频计数结果;及一网页指纹处理单元,系用于对所撷取之网页资料进行网页属性的分类,其系以所撷取网页之网页原始码的标签作为段落切割的节点,并依据该词频计数结果搭配使用TF/IDF权重分析元件,以产生对应网页之每个分词的权值,并自权值大至小的排列中选取前预定数量的分词并依据其字元重新排列以产生对应网页之一分词资讯,最后再依杂凑演算法将所选取的该等字元转换为预订位元数的 一串码,进而产生对应网页之串码;及一网路资讯整理模组,系依据该中文目标资讯于一资料库储存装置内选取对应的类别并比对所撷取之网页的该分词资讯,于有匹配之网页时撷取该网页之页面以产生一网页撷取资料,以提供所撷取之网页撷取资料;其中,该资料库储存装置系连结该电脑运算装置,系依据所撷取网页对应之串码储存所撷取之该网页撷取资料及其分词资讯,以分类所撷取之网页撷取资料。
地址 新北市新庄区思源路27号11楼