发明名称 用于搜索多个数据记录的方法和搜索引擎
摘要 本发明涉及一种由计算机实施的、用于在多个(D)数据集(d1)中进行搜索的方法,其中接收具有至少一个搜索词语(qi)的一个搜索查询(Q),根据一个参考量(T)推导出具有与该搜索词语(qi)相似或相同的多个词语(tj)的一个部分量(V),针对该部分量(V)的每个词语(tj)确定与该搜索词语(qi)的一个相似性量度(Aj),确定该词语(tj)的出现概率(pj),将取决于该词语(tj)的一个加权分布(Xj)应用到该部分量(V)的这些词语(tk)上,其中具有一个较大相似性量度的这些词语(tk)与具有一个较小相似性量度的多个词语(tk)相比被更重地加权,并且根据该部分量(V)的这些词语(tk)的这些加权概率来确定该词语(tj)的一个修改的概率(p’j,P”j)。另外对这些数据集(di)就其与该搜索查询(Q)的相关性(R)来进行评估,其中做出关于该部分量的这些词语(tj)是否出现在该数据集(dj)中的一个检查,并且如果该部分量(Q)的一个词语(tj)出现在该数据集(d1)中,则该词语(tj)的一个较小修改的概率(p’j,P”j)导致该数据集(d1)的一个较大相关性值,并且至少一个部分数据集量作为其相关性值(R)的一个函数被输出。本发明进一步涉及一种用于执行所述方法的搜索引擎。
申请公布号 CN103098052A 申请公布日期 2013.05.08
申请号 CN201180040712.0 申请日期 2011.08.17
申请人 欧米克数据质量有限公司 发明人 埃明·卡拉耶尔;卡斯滕·海因茨;马蒂亚斯·克林斯
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人 刘继富;王春伟
主权项 一种用于搜索多个(D)数据记录(dI)的计算机实施的方法,其中‑接收含有至少一个搜索词语(qi)的搜索查询(Q),‑根据参考集(T)来确认含有与该搜索词语(qi)相似或相同的词语(tj)的子集(V),‑针对该子集(V)中的每个词语(tj)‑确定与该搜索词语(qi)的相似性量度(Aj),‑确定该词语(tj)的出现概率(pj),‑将取决于所述词语(tj)的加权分布(Xj)应用到所述子集(V)中的这些词语(tk)上,其中具有较高相似性量度(Ak)的这些词语(tk)与具有较低相似性量度(Ak)的词语(tk)相比被更强地加权,以及‑根据所述子集(V)中的这些词语(tk)的这些加权的概率来确定所述词语(tj)的修改的概率(p’j,p”j),‑对这些数据记录(dI)针对它们与所述搜索查询(Q)的相关性(R)进行评定,其中‑执行一个检查来确定所述子集(V)中的这些词语(tj)是否出现在所述数据记录(dI)中,以及‑如果所述子集(V)中的词语(tj)出现在所述数据记录(dI)中,那么所述词语(tj)的较低修改的概率(p’j,p”j)导致所述数据记录(dI)的较高相关性评定值,以及‑基于至少一个数据记录子集的相关性评定值(R)来输出所述至少 一个数据记录子集。
地址 德国普福尔茨海姆