发明名称 兴趣识别方法及系统
摘要 本发明提供了一种兴趣识别方法及系统,通过收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取和归并,并形成知识图谱;根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体;若有,将所述侧重的语义实体作为该用户的兴趣标签,能够帮助提升对于内容的搜索及推荐的精准度。
申请公布号 CN106294744A 申请公布日期 2017.01.04
申请号 CN201610652621.7 申请日期 2016.08.11
申请人 上海动云信息科技有限公司 发明人 万顷
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种兴趣识别方法,其特征在于,包括:收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体,其中, 所述一定时间范围内为最近一定时间范围内;若有,将所述侧重的语义实体作为该用户的兴趣标签。
地址 200080 上海市虹口区东大名路687号1幢316室