发明名称 一种基于鼠标行为的用户分类方法
摘要 本发明公开了一种基于鼠标行为的用户分类方法,包括下述步骤:S1、对电脑屏幕区域划分,对不同尺寸的屏幕、分辨率进行统一量化;S2、建立鼠标热点区域模型,然后根据鼠标在某个区域内出现的次数的多寡,来判断该区域的热点程度,同时通过比较不同类别用户每个区域热点程度的不同来进行分类;S3、建立鼠标活跃度模型,评定每个划分好的区域内用户鼠标移动的活跃程度,根据用户每个区域鼠标活跃度的异同特征,对用户进行分类。本发明完全是基于鼠标行为,没有依赖网页内容、IP、PV、UV等信息,完全通过用户行为来进行用户属性分类的方法。另外,本发明不但可以灵活地设置收集数据的区域位置大小,还支持多类别分类,可运用于网站或各种操作系统上。
申请公布号 CN103440328B 申请公布日期 2016.09.07
申请号 CN201310395555.6 申请日期 2013.09.03
申请人 暨南大学 发明人 邓玉辉;邓伟鸿
分类号 G06F17/30(2006.01)I;G06F3/0484(2013.01)I;G06F3/033(2013.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 陈燕娴
主权项 一种基于鼠标行为的用户分类方法,其特征在于,包括下述步骤:S1、对电脑屏幕区域划分,对用户不同尺寸的屏幕、分辨率进行统一量化;S2、建立鼠标热点区域模型,统计在规定时间间隔的鼠标坐标序列内,其落在每个已经划分好的区域的次数,然后根据鼠标在某个区域内出现的次数的多寡,来判断该区域的热点程度,同时通过比较不同类别用户每个区域热点程度的不同来进行分类;S3、建立鼠标活跃度模型,用于评定每个划分好的区域内用户鼠标移动的活跃程度,鼠标的活跃程度是在一个时间段内这个区域内鼠标坐标分布的离散程度,离散程度越高,则说明这个区域的用户的鼠标动作越活跃,根据用户每个区域鼠标活跃度的异同特征,对用户进行分类;对于鼠标活跃度模型,利用统计学标准差来量化用户的鼠标移动的离散程度和活跃度;某个区域标准差越大,则表明用户在该区域的的鼠标活动越离散、活跃;使用标准差圆半径来对标准差进行数学描述,对于每一个区域来说,使用以下的计算公式:<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mover><mi>x</mi><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>x</mi><mi>t</mi></msub></mrow><mi>N</mi></mfrac></mrow></mtd></mtr><mtr><mtd><mrow><mover><mi>y</mi><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>y</mi><mi>t</mi></msub></mrow><mi>N</mi></mfrac></mrow></mtd></mtr><mtr><mtd><mrow><mi>R</mi><mo>=</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mfrac><mrow><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>-</mo><mover><mi>x</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>-</mo><mover><mi>y</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mi>N</mi><mo>-</mo><mn>2</mn></mrow></mfrac></mrow></msqrt></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000989506890000011.GIF" wi="787" he="894" /></maths>其中N为该区域输入数据流所包含的个数,<img file="FDA0000989506890000012.GIF" wi="110" he="70" />为该区域的均值坐标,R为标准差圆半径;每个区域是独立的,并且都对分类作出影响,所有区域的标准差圆半径R都分别作为该区域分类的特征,由于分类的类别也可以是多种的,所以可以建立得到以下多分类Logisitic回归模型:假设所需要分辨的类别Y有e个取值[1,e],以Y=1为模型的参照组,协变量为该类各个区域的标准差圆半径R<sub>i</sub>=(R<sub>i1</sub>,R<sub>i2</sub>,...,R<sub>ij</sub>):<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><mi>Y</mi><mo>=</mo><mi>i</mi><mo>|</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>e</mi><mrow><msub><mi>B</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></msup><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>e</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>B</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></msup></mrow></mfrac></mrow>]]></math><img file="FDA0000989506890000021.GIF" wi="506" he="182" /></maths>其中i为类别的编号,j为区域编号,B<sub>i</sub>(R<sub>i</sub>)为Logisitic模型自有先验性参数,并且:B<sub>i</sub>(R<sub>i</sub>)=β<sub>i0</sub>+β<sub>i1</sub>R<sub>i1</sub>+β<sub>i2</sub>R<sub>i2</sub>+...+β<sub>ij</sub>R<sub>ij</sub>其中β<sub>i</sub>=(β<sub>i0</sub>,β<sub>i1</sub>,β<sub>i2</sub>,...,β<sub>ij</sub>)是以Y=1为模型的参照组,第i类的参数。
地址 510632 广东省广州市黄埔大道西601号