发明名称 |
自动地生成训练数据 |
摘要 |
本发明揭示了自动生成训练数据的技术。计算机可读介质、计算机系统,以及计算设备促进生成二进制分类器和实体提取器训练数据。选择种子URL,并标识种子URL内的URL模式。标识数据结构中的匹配URL,并将对应的查询以及它们的相关联的权重添加到从其中选择训练数据的潜在的训练数据集中。 |
申请公布号 |
CN102289459A |
申请公布日期 |
2011.12.21 |
申请号 |
CN201110178954.8 |
申请日期 |
2011.06.20 |
申请人 |
微软公司 |
发明人 |
G·比勒;P·沃拉;A·麦克戈文;S·阿哈里;M·纳拉辛汉 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 31100 |
代理人 |
杨洁 |
主权项 |
在其上包含计算机可执行指令的一个或多个计算机可读介质,所述计算机可执行指令在由与搜索服务相关联的计算设备中的处理器执行时,使所述计算设备执行相对于内容域标识点击数据中的查询和统一资源定位符URL之间的正关联的方法;所述方法包括:接收将查询与由所述查询所标识的URL相关联的数据结构;标识与所述内容域相关联的第一URL模式;确定所述点击图中的第一URL的至少一部分与所述第一URL模式相匹配;标识与所述第一URL相关联的第一查询;以及确定所述第一查询和所述第一URL相对于所述内容域具有正关联。 |
地址 |
美国华盛顿州 |