发明名称 词汇信息处理方法及系统
摘要 本发明涉及一种词汇信息处理方法及系统,其中方法包括:从互联网上获取待测量词汇信息,将待测量词汇信息生成标准化数据;按照设定条件从标准化数据中抽取部分数据,形成抽取数据;对抽取数据进行切词匹配,形成切词数据,对切词数据进行聚类处理,并将聚类处理后的切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义参数;对词汇语义参数进行综合测量,获取评测结果。本发明提供的词汇信息处理方法及系统,通过将待测量词汇信息进行聚类处理,对待测量词汇信息进行客观分类和评测,实现对特定主题综合的全方位评测,避免互联网用户对特定主题带有主观片面的评价。
申请公布号 CN101788989A 申请公布日期 2010.07.28
申请号 CN200910077558.9 申请日期 2009.01.22
申请人 蔡亮华 发明人 蔡亮华;庞然;胡新宇
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 刘芳
主权项 一种词汇信息处理方法,其特征在于,包括以下步骤:从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据,所述标准化数据采用二维数据表的格式存储;按照设定条件从所述标准化数据中抽取部分数据,形成抽取数据;对所述抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数;对所述词汇语义参数进行综合测量,获取评测结果。
地址 100035 北京市西城区宝产胡同15号院4-402号