发明名称 |
更新索引表的方法及装置、基于索引表检索的方法及装置 |
摘要 |
本申请公开了一种基于分词更新索引表的方法及装置以及基于索引表进行检索的方法及装置,其中所述更新索引表的方法,包括:为收集的文本分配文本标识,并对所述文本进行分词处理;统计所述文本处理后得到的各分词在所述文本内出现的次数以及出现的位置,并依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储;将所述文本标识绑定在所述文本内各分词的共生信息中,将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表。本申请大大降低了存储的数据量,并且加快了在索引表中检索遍历的速度,以便于更加合理高效快速的捕捉到用户发起的搜索请求的目标结果。 |
申请公布号 |
CN104572879A |
申请公布日期 |
2015.04.29 |
申请号 |
CN201410806400.1 |
申请日期 |
2014.12.19 |
申请人 |
乐视网信息技术(北京)股份有限公司 |
发明人 |
刘曙;关涛;于立柱 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京国昊天诚知识产权代理有限公司 11315 |
代理人 |
刘戈 |
主权项 |
一种基于分词更新索引表的方法,其特征在于,包括:为收集的文本分配文本标识,并对所述文本进行分词处理;统计所述文本处理后得到的各分词在所述文本内出现的次数以及出现的位置,并依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储;将所述文本标识绑定在所述文本内各分词的共生信息中,将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表。 |
地址 |
100089 北京市海淀区学院南路68号19号楼六层6184号房间 |