发明名称 一种结合视觉分辨难度的文本串权重计算方法及装置
摘要 一种结合视觉分辨难度的文本串权重计算方法和装置,其方法首先构造一个文档集合,统计字符串在文档集合中频率和在单个文档中的频率,以及每个字符在哪些文本串中出现,每个字符的笔画数。然后,切词处理待计算文本串权重的文档,得到一个文本串序列,对每一个文本计算其视觉密度,易识别度,和TF?IDF值。最后,加权相加该文本串的视觉密度、易识别度和TF?IDF值,得到文本串对一个文档的权重,并进一步的得到文本串对文档的归一化权重。该方法使得具有更多信息量,同时容易被用户辨识的词具有更大的权重,在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果,使得用户能够更快地发现感兴趣的结果。
申请公布号 CN103744900A 申请公布日期 2014.04.23
申请号 CN201310725839.7 申请日期 2013.12.26
申请人 合一网络技术(北京)有限公司 发明人 刘伟;姚键;潘柏宇;卢述奇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种结合视觉分辨难度的文本串权重计算方法,包括如下步骤:构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;数据统计子步骤S112:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k, <img file="152564DEST_PATH_IMAGE002.GIF" wi="516" he="115" />公式(1),其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;视觉密度计算子步骤S122:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度<img file="180563DEST_PATH_IMAGE003.GIF" wi="56" he="22" />:<img file="890375DEST_PATH_IMAGE005.GIF" wi="516" he="116" />公式(2),其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f<sub>1</sub>和f<sub>m</sub>为调权因子; 易识别度计算子步骤S123:利用公式(3)计算文本串Ti的易识别度<img file="345627DEST_PATH_IMAGE006.GIF" wi="48" he="22" />:<img file="976941DEST_PATH_IMAGE008.GIF" wi="504" he="118" />公式(3),m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y<sub>1</sub>和y<sub>m</sub>进行调权,字符C易识别度CF(C)通过公式(4)计算得到:<img file="71280DEST_PATH_IMAGE010.GIF" wi="528" he="118" />公式(4),CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:<img file="107369DEST_PATH_IMAGE011.GIF" wi="417" he="148" />公式(5),N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,<img file="488451DEST_PATH_IMAGE013.GIF" wi="516" he="92" />公式(6)其中,<img file="75903DEST_PATH_IMAGE014.GIF" wi="21" he="22" />为TF·IDF值权重调权因子,<img file="445704DEST_PATH_IMAGE015.GIF" wi="21" he="22" />为文本串视觉分辨难度调权因子;归一化权重计算步骤S140:将待测文档D中的文本串Ti的权重<img file="395687DEST_PATH_IMAGE016.GIF" wi="77" he="22" />利用公式(7)进行归一化,得到文本串Ti的归一化权重<img file="192742DEST_PATH_IMAGE017.GIF" wi="99" he="22" />,<img file="23288DEST_PATH_IMAGE019.GIF" wi="408" he="156" />公式(7)。
地址 100080 北京市海淀区海淀大街8号中钢国际广场A座5层A、C区