发明名称 内容过滤器训练评估方法
摘要 本发明涉及一种文本内容过滤器训练指导依据的产生方法,尤其是文本内容过滤器训练评估方法,过滤器训练完成的是对用户过滤请求的信息提取和表示工作,系统执行过滤操作的唯一依据就是训练的结果——以特征向量空间定义的文本内容表示,因此,训练结果的优劣,将对过滤产生最直接、最显著的影响,本发明的技术方案为解决该问题提供了客观、合理的技术手段,保障了训练端的效果。
申请公布号 CN1200375C 申请公布日期 2005.05.04
申请号 CN01131172.X 申请日期 2001.09.05
申请人 联想(北京)有限公司 发明人 肖航;高建忠;王江;诸光;王楠;何燕
分类号 G06F17/21;G06F17/16 主分类号 G06F17/21
代理机构 北京同立钧成知识产权代理有限公司 代理人 刘芳
主权项 1、一种内容过滤器训练评估方法,其特征在于:对过滤器训练端的训练进行评价,包括对特征词数量的评价、重复率的评价、主题集中度的评价;以此对训练效果进行自动指导;所述特征词数量的评价为:<img file="C011311720002C1.GIF" wi="425" he="175" />其中:x<sub>i</sub>为训练文本包含的特征词数,A为特征词表总词数,α<sub>I</sub>为对每个训练评估点的经验给定一个特征词数量阈值;所述重复率的评价,具体为:<img file="C011311720002C2.GIF" wi="403" he="127" />其中:x<sub>I</sub>为平均重复率,β=0.4,为经验阈值;所述主题集中度的评价,具体为:<img file="C011311720002C3.GIF" wi="397" he="125" />其中,x<sub>i</sub>为最高文档覆盖率,χ为经验阈值;所述训练评价具体为:                           Q=Q<sub>1</sub>*Q<sub>2</sub>*Q<sub>3</sub>最后,根据Q值确定训练效果等级。
地址 100085北京市海淀区上地信息产业基地创业路6号