发明名称 包含来自各种数据源的数据的实体解析
摘要 一对记录被分词以形成由每个记录表示的实体的规格化表示。通过确定两个实体是否已存在所学的解析,将标记与机器学系统相关联。如果不存在,则比较规格化记录以生成比较测量来确定记录是否匹配。规格化记录还可以用于执行web搜索,并且web搜索结果可以被规格化并且用作用于匹配的附加记录。当找到匹配时,更新记录以指示它们匹配,并且将匹配提供给机器学系统以更新所学的解析。
申请公布号 CN106575395A 申请公布日期 2017.04.19
申请号 CN201580043264.8 申请日期 2015.08.11
申请人 微软技术许可有限责任公司 发明人 S·J·托马斯;M·M·H·乔德胡里
分类号 G06Q10/10(2012.01)I;G06Q30/00(2012.01)I 主分类号 G06Q10/10(2012.01)I
代理机构 北京市金杜律师事务所 11256 代理人 王茂华
主权项 一种计算系统,包括:接收第一记录和第二记录的记录分词器,每个记录包括项标识符和属性集合,所述项标识符标识作为所述记录的对象的项,所述分词器将所述第一记录和所述第二记录规格化以获得相对应的第一实体标记和第二实体标记,每个实体标记以规格化形式表示相对应的所述记录中的所述项标识符和所述属性;以及记录匹配器,所述记录匹配器将所述第一实体标记与所述第二实体标记进行比较以标识相似性测量,并且基于所述相似性测量来提供匹配结果,所述匹配结果指示所述第一记录和所述第二记录是否解析为与其对象相同的项。
地址 美国华盛顿州