发明名称 一种基于多个数据交互中心的数据进行信息推送的方法
摘要 本发明公开了一种基于多个数据交互中心的数据进行信息推送的方法,包括:从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到用户的特征数据;根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据;根据所述用户的用户行为意图数据生成与该用户当前行为匹配的推荐信息;向该用户发送推荐信息。本发明解决了如何将多个数据交互中心的数据进行数据统一并发送个性化信息给用户的问题。
申请公布号 CN103118111B 申请公布日期 2017.02.08
申请号 CN201310039741.6 申请日期 2013.01.31
申请人 北京百分点信息科技有限公司 发明人 柏林森;苏萌;周涛;刘译璟;郭志金;周莹
分类号 H04L29/08(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 北京国昊天诚知识产权代理有限公司 11315 代理人 许志勇
主权项 一种基于多个数据交互中心的数据进行信息推送的方法,其特征在于,包括:从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到用户的特征数据;其中,所述用户行为数据包括:用户选定行为数据和用户浏览行为数据;其中,所述用户选定行为数据包括:用户选定的数据项item_id、用户选定的数据项的特定数据价格price和用户选定数据项的数量quantity;所述用户浏览行为数据包括:用户浏览的数据项item_id;所述数据项信息数据包括:数据项所在的数据交互中心client_id、数据项在所述数据交互中心上的标识信息item_id、数据项的名称item_name、数据项的分类cat、数据项的关键词key_word、price数据项的特定数据、数据项的描述introduce、数据项被浏览的次数browse_times、数据项被选定的次数buy_times、数据项的评分score和数据项的评论reviews;根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据;根据所述用户的用户行为意图数据生成与该用户当前行为匹配的推荐信息;向该用户发送推荐信息;所述根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据的步骤,包括:获取所述用户的浏览行为并计算该用户的浏览特征;根据该用户的浏览特征计算得到该用户的行为意图数据;其中用户的行为意图数据包括:用户意图类目、用户意图类目下的意图标签和用户意图值;所述获取所述用户的浏览行为并计算该用户的浏览特征的步骤,包括:分析用户的浏览时间特征,通过该用户浏览时间间隔获取该用户的浏览时间特征,其中所述浏览时间特征包括浏览时间间隔均值和浏览时间间隔标准差;分析用户浏览数据项的特征,通过该用户浏览数据项的相似性获取用户浏览数据项的特征,其中所述浏览数据项的特征包括用户浏览数据项的类目、行为和标签相似性特征;所述根据所述用户的浏览特征计算得到所述用户的行为意图数据的步骤,包括:计算所述用户的用户意图类目,通过所述用户浏览数据项的类目信息计算用户最感兴趣的类目,并将所述类目作为该用户的用户意图类目;计算所述用户的用户意图类目下的意图标签,通过所述用户意图类目计算用户在所述类目下最感兴趣的标签集,并且所述标签集作为所述用户在所述用户意图类目下的意图标签;计算所述用户的用户意图值,通过所述用户的浏览特征计算所述用户的意图值,其中采用逻辑回归的方式将所述用户的浏览特征映射为在0至1区间中的一个值,并将所述值作为所述用户的用户意图值;其中,所述浏览时间间隔的均值的计算方式为:<img file="FDA0001092200800000021.GIF" wi="558" he="185" />时间间隔的标准差计算方式为:<img file="FDA0001092200800000022.GIF" wi="506" he="253" />获取用户浏览数据项的时间间隔,若用户只有一次浏览时间,则时间间隔为0,若有n次浏览行为{t<sub>1</sub>,t<sub>2</sub>,…t<sub>n</sub>},其中t<sub>i</sub>表示用户浏览数据项的时间,则时间间隔为<img file="FDA0001092200800000023.GIF" wi="358" he="109" />其中,<img file="FDA0001092200800000024.GIF" wi="270" he="87" />进一步,获取用户的浏览数据项的序列,若用户只有1次浏览行为,则用户浏览数据项的类目、行为、标签相似性特征均记为0,若有k(k&gt;1)个浏览数据项{I<sub>1</sub>,I<sub>2</sub>,…I<sub>k</sub>},则浏览数据项的类目相似性特征的计算方式为:<maths num="0001"><math><![CDATA[<mrow><msub><mi>F</mi><mn>3</mn></msub><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>-</mo><mn>2</mn></mrow></munderover><msub><mi>Sim</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mi>I</mi><mi>i</mi></msub><mo>,</mo><msub><mi>I</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow></mrow><mrow><mi>k</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>,</mo><mrow><mo>(</mo><mi>k</mi><mo>&gt;</mo><mn>1</mn><mo>,</mo><mn>0</mn><mo>&lt;</mo><msub><mi>Sim</mi><mn>1</mn></msub><mo>&lt;</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001092200800000025.GIF" wi="934" he="190" /></maths>其中,<img file="FDA0001092200800000031.GIF" wi="854" he="143" />depth(I<sub>i</sub>)∩depth(I<sub>i+1</sub>)表示I<sub>i</sub>,I<sub>i+1</sub>的公共路径深度,depth(I<sub>i</sub>)∪depth(I<sub>i+1</sub>)表示各自路径深度减去公共路径深度,depth(I<sub>i</sub>)表示数据项I<sub>i</sub>的类目树深度;浏览数据项的标签相似性特征的计算方式为:<maths num="0002"><math><![CDATA[<mrow><msub><mi>F</mi><mn>4</mn></msub><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>-</mo><mn>2</mn></mrow></munderover><msub><mi>Sim</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>I</mi><mi>i</mi></msub><mo>,</mo><msub><mi>I</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow></mrow><mrow><mi>k</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>,</mo><mrow><mo>(</mo><mi>k</mi><mo>&gt;</mo><mn>1</mn><mo>,</mo><mn>0</mn><mo>&lt;</mo><msub><mi>Sim</mi><mn>2</mn></msub><mo>&lt;</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001092200800000032.GIF" wi="946" he="191" /></maths>其中,<img file="FDA0001092200800000033.GIF" wi="765" he="143" />tag(I<sub>i</sub>)∩tag(I<sub>i+1</sub>)表示I<sub>i</sub>,I<sub>i+1</sub>的公共标签数量,tag(I<sub>i</sub>)∪tag(I<sub>i+1</sub>)表示各自标签数量减去公共标签数量,tag(I<sub>i</sub>)表示数据项I<sub>i</sub>的标签集合;浏览数据项的行为相似性特征的计算方式为:<maths num="0003"><math><![CDATA[<mrow><msub><mi>F</mi><mn>5</mn></msub><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>-</mo><mn>2</mn></mrow></munderover><msub><mi>Sim</mi><mn>3</mn></msub><mrow><mo>(</mo><msub><mi>I</mi><mi>i</mi></msub><mo>,</mo><msub><mi>I</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow></mrow><mrow><mi>k</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0001092200800000034.GIF" wi="534" he="191" /></maths>其中,<img file="FDA0001092200800000035.GIF" wi="766" he="142" />act(I<sub>i</sub>)∩act(I<sub>i+1</sub>)表示I<sub>i</sub>,I<sub>i+1</sub>的共有行为数,act(I<sub>i</sub>)∪act(I<sub>i+1</sub>)表示各自行为数减去共有行为数,act(I<sub>i</sub>)表示对数据项I<sub>i</sub>有浏览行为的用户集合;其中,所述计算所述用户的用户意图类目包括:计算用户浏览过所有类目的意图,最后取前m个作为意图类目,m取2或3,其中每个类目c的意图计算方式为:Intention(c)=λ<sub>0</sub>+λ<sub>1</sub>·num(c)+λ<sub>2</sub>·time(c)其中,num(c)表示用户浏览类目c的次数,time(c)表示用户浏览类目c的停留时间,λ<sub>0</sub>、λ<sub>1</sub>、λ<sub>2</sub>为离线计算的参数;其中,计算所述用户的用户意图类目下的意图标签包括:读取意图类目下所有数据项的标签,并且每个数据项作为一个单独实体,最后采用TF‑IDF计算所有标签的权重,并返回前K个权重最高的标签作为该意图类目下的意图标签,K为10‑30;其中,计算所述用户的用户意图值包括:通过逻辑回归方法计算用户的意图值,其计算方式如下:<maths num="0004"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><msup><mi>&beta;</mi><mi>T</mi></msup><mi>x</mi></mrow></msup></mrow></mfrac></mrow>]]></math><img file="FDA0001092200800000041.GIF" wi="462" he="175" /></maths>其中,β<sup>T</sup>x=a<sub>0</sub>+a<sub>1</sub>·F<sub>1</sub>+a<sub>2</sub>·F<sub>2</sub>+a<sub>3</sub>·F<sub>3</sub>+a<sub>4</sub>·F<sub>4</sub>+a<sub>5</sub>·F<sub>5</sub>,F<sub>1</sub>,F<sub>2</sub>,F<sub>3</sub>,F<sub>4</sub>,F<sub>5</sub>表示用户的浏览特征,a<sub>0</sub>、a<sub>1</sub>、a<sub>2</sub>、a<sub>3</sub>、a<sub>4</sub>、a<sub>5</sub>为离线计算的参数,f(x)表示用户的意图值,该意图值直接表示用户的行为意图的概率。
地址 100080 北京市海淀区北四环西路66号中国技术交易大厦B座18层