主权项 |
一种中文网路资讯监测分析系统,系用于根据使用者之电子通讯装置所提交之至少一中文目标资讯,进行网际网路上之监测分析,包含:一词库储存装置,系内储存有复数中文分词表资讯、复数中文同义词资讯、复数中文蕴含词资讯;一电脑运算装置,系连结该词库储存装置,包含:一目标资讯处理模组,系接收该至少一中文目标资讯;一网路资讯处理分析模组,系于该网际网路进行搜寻及产生分析结果,包含:一网路资讯撷取单元,系于该网际网路上进行网页资料的撷取;一断词断句处理单元,系用于对所撷取之该网页资料依据标点符号及该等中文分词表资讯进行断词断句之第一阶处理,再依据最大匹配法进行第二阶处理,以产生对应网页之断词断句结果;一词频处理单元,系根据该等中文同义词资讯及该等中文蕴含词资讯,于该断词断句结果中计数对应之词句的出现频率,以产生对应网页之一词频计数结果;及一网页指纹处理单元,系用于对所撷取之网页资料进行网页属性的分类,其系以所撷取网页之网页原始码的标签作为段落切割的节点,并依据该词频计数结果搭配使用TF/IDF权重分析元件,以产生对应网页之每个分词的权值,并自权值大至小的排列中选取前预定数量的分词并依据其字元重新排列以产生对应网页之一分词资讯,最后再依杂凑演算法将所选取的该等字元转换为预订位元数的
一串码,进而产生对应网页之串码;及一网路资讯整理模组,系依据该中文目标资讯于一资料库储存装置内选取对应的类别并比对所撷取之网页的该分词资讯,于有匹配之网页时撷取该网页之页面以产生一网页撷取资料,以提供所撷取之网页撷取资料;其中,该资料库储存装置系连结该电脑运算装置,系依据所撷取网页对应之串码储存所撷取之该网页撷取资料及其分词资讯,以分类所撷取之网页撷取资料。
|