发明名称 一种基于偏好度的网页文本内容管控方法
摘要 本发明公开了一种基于偏好度的网页文本内容管控方法。本发明的方法包括通过分析用户感兴趣的网页信息生成用户偏好网页库,利用文本智能分析技术计算出待管控网页的偏好度,依据此偏好度进行对网页的管控,同时用户根据管控结果进行反馈,更新偏好网页库。本发明的方法通过这种循环反馈式的增强学,使得偏好库中的用户偏好信息将得到持续修正,不断逼近用户“真实”的偏好,最终加强对网页管控能力。本发明的方法不仅能实现对网络不良信息过滤,维护网络信息的健康,而且能过滤掉网络上大量对用户而言无用的信息,为用户推送与其密切相关的信息。
申请公布号 CN102436512B 申请公布日期 2013.05.08
申请号 CN201210014032.8 申请日期 2012.01.17
申请人 电子科技大学 发明人 佘堃;敬思远;吴娱
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 电子科技大学专利中心 51203 代理人 周永宏
主权项 1.一种基于偏好度的网页文本内容管控方法,其特征在于,包括网页库生成步骤、网页库分析步骤和用户信息反馈步骤,其中,网页库生成步骤包括如下分步骤:S11.对网页文本信息分别进行分词,并且利用停用词表,除去分词里面的常用停用词,得到特征值f<sub>i</sub>;S12.计算每个词汇的<img file="FDA00002489632200011.GIF" wi="71" he="60" />统计值,按照<img file="FDA00002489632200012.GIF" wi="71" he="60" />对词汇进行降序排序,选出与分类最相关的M个特征值,<img file="FDA00002489632200013.GIF" wi="153" he="59" />表示特征值为f<sub>i</sub>的<img file="FDA00002489632200014.GIF" wi="71" he="60" />统计值,具体计算公式如下:<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>&chi;</mi><mi>avg</mi><mn>2</mn></msubsup><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><msup><mi>&chi;</mi><mn>2</mn></msup><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><mfrac><mrow><mi>N</mi><mo>&CenterDot;</mo><msup><mrow><mo>(</mo><msub><mi>A</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msub><mi>A</mi><mn>4</mn></msub><mo>-</mo><msub><mi>A</mi><mn>3</mn></msub><mo>&CenterDot;</mo><msub><mi>A</mi><mn>2</mn></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mrow><mo>(</mo><msub><mi>A</mi><mn>1</mn></msub><mo>+</mo><msub><mi>A</mi><mn>3</mn></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><mrow><mo>(</mo><msub><mi>A</mi><mn>2</mn></msub><mo>+</mo><msub><mi>A</mi><mn>4</mn></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><mrow><mo>(</mo><msub><mi>A</mi><mn>1</mn></msub><mo>+</mo><msub><mi>A</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><mrow><mo>(</mo><msub><mi>A</mi><mn>3</mn></msub><mo>+</mo><msub><mi>A</mi><mn>4</mn></msub><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>其中,<img file="FDA00002489632200016.GIF" wi="332" he="107" />A<sub>1</sub>表示属于c<sub>j</sub>类别并且含有特征值f<sub>i</sub>的网页数量,A<sub>2</sub>表示属于c<sub>j</sub>类别并且不含特征值f<sub>i</sub>的网页数量,A<sub>3</sub>表示不属于c<sub>j</sub>类别并且含有特征值f<sub>i</sub>的网页数量,A<sub>4</sub>表示不属于c<sub>j</sub>类别并且不含特征值f<sub>i</sub>的网页数量,n表示特征值的数量,N表示所有的网页数量;S13.根据以下公式计算出每个特征值f<sub>i</sub>的条件概率值p(F=f<sub>i|</sub>C=c<sub>j</sub>),<maths num="0002"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mrow><mi>i</mi><mo>|</mo></mrow></msub><mi>C</mi><mo>=</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>n</mi><mi>ij</mi></msub><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>c<sub>j</sub>∈{preference,non-preference}其中,n<sub>ij</sub>为特征值f<sub>i</sub>在c<sub>j</sub>类别网页中出现的次数,Num(c<sub>j</sub>)为c<sub>j</sub>类别的网页总数,preference表示用户感兴趣的分类,non-preference表示用户不感兴趣的分类;S14.将提取出来的特征值和相对应的概率值,以及每个类别的网页总数记录下来,构成偏好网页库;网页库分析步骤包括如下分步骤:S21.计算出当前待分析网页文本d={f<sub>1</sub>,f<sub>2</sub>,...,f<sub>n</sub>}的偏好度p(C=preference|d),<maths num="0003"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mi>preference</mi><mo>|</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mi>preference</mi><mo>)</mo></mrow><mo>*</mo><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>P</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>i</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><mi>preference</mi><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><msub><mi>c</mi><mi>j</mi></msub><mo>&Element;</mo><mi>C</mi></mrow></munder><mi>P</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>*</mo><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>P</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>i</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><mi>page</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>c<sub>j</sub>∈{preference,non-preference}其中,Num(page)为所有网页的数量,Num(c<sub>j</sub>)为属于c<sub>j</sub>类的网页数量,p(F=f<sub>i|</sub>C=c<sub>j</sub>)为网页库生成阶段计算出来的概率值;S22.将计算出的偏好度p(C=preference|d)与用户初始设定的阈值进行比较,如果此偏好度大于阈值,则将该网页标记为用户所关心的网页;用户信息反馈步骤包括如下分步骤:S31.提取用户当前网页的特征值,以及计算特征值在网页中出现的频率fn<sub>i</sub>;S32.如果是一个没有推荐给用户的网页是用户所关心的,则执行步骤S33,如果是一个推送给用户的网页是用户所不关心的,则执行步骤S34;S33.计算每一个特征值的概率值p<sup>*</sup>(F=f<sub>i|</sub>C=preference)<maths num="0005"><![CDATA[<math><mrow><msup><mi>p</mi><mo>*</mo></msup><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mrow><mi>i</mi><mo>|</mo></mrow></msub><mi>C</mi><mo>=</mo><mi>preference</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>n</mi><mi>preference</mi></msub><mo>+</mo><mn>2</mn><mo>*</mo><msub><mi>fn</mi><mi>i</mi></msub></mrow><mrow><msup><mi>Num</mi><mo>*</mo></msup><mrow><mo>(</mo><mi>preference</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>Num*<sup>(</sup>preference)=Num(preference)+2其中,n<sub>preference</sub>为该特征值在用户关心的网页中出现的次数,用p<sup>*</sup>(F=f<sub>i|</sub>C=preference)替换该特征值原有的概率值p(F=f<sub>i|</sub>C=preference),用Num<sup>*</sup>(preference)替换Num(preference),更新偏好网页库;S34.计算每一个特征值的概率值p<sup>*</sup>(F=f<sub>i|</sub>C=non-preference)<img file="FDA00002489632200022.GIF" wi="1204" he="117" />Num<sup>*</sup>(non-preference)=Num(non-preference)+2其中,n<sub>non-preference</sub>为该特征值在用户不关心的网页中出现的次数,用p<sup>*</sup>(F=f<sub>i|</sub>C=non-preference)替换该特征值原有的概率值p(F=f<sub>i|</sub>C=non-preference),用Num<sup>*</sup>(non-preference)替换Num(non-preference),更新偏好网页库。
地址 611731 四川省成都市高新区(西区)西源大道2006号