发明名称 |
计算机-人交互式学中的交互式概念编辑 |
摘要 |
非常大的数据集合很难进行搜索和/或分析。可以通过将查询和网页自动地分类成有用的类型,并使用这些分类评分作为相关性特征,来显著地提高相关性。一种彻底的方法可能需要构建很大数量的分类器,它们对应于各种类型的信息、活动和产品。关于较大的数据集,提供分类器和概要器的生成。在数以亿计的条目上训练分类器和概要器,可以通过增加可用的元数据来揭露该数据固有的值。一些方面包括主动标注探索、自动正则化和冷启动、随着条目数量和分类器数量进行的扩展、主动特征化、以及分段和概要化。 |
申请公布号 |
CN105378764A |
申请公布日期 |
2016.03.02 |
申请号 |
CN201480039782.8 |
申请日期 |
2014.07.11 |
申请人 |
微软技术许可有限责任公司 |
发明人 |
P·Y·西马德;D·G·格朗吉耶;L·布特欧;S·A·阿默诗 |
分类号 |
G06N99/00(2006.01)I |
主分类号 |
G06N99/00(2006.01)I |
代理机构 |
永新专利商标代理有限公司 72002 |
代理人 |
张扬;王英 |
主权项 |
一种交互式生成用于机器学习的字典的方法,包括:呈现用于生成字典的用户界面,其中所述字典包括定义作为用于训练分类器的特征可用的概念的词语或者n元词中的一个或二者的列表;在所述用户界面上呈现正例字段,其中所述正例字段被配置为接收是所述概念的正例的用户输入词语或者n元词,其中所述正例是从以下各项中的一项或多项来接收的:A)键入条目或者B)对来自于一个或多个建议集字段中的一个或多个建议的词语或n元词的选择;以及在所述用户界面上呈现被配置为显示一个或多个系统生成列表的所述一个或多个建议集字段,其中所述一个或多个系统生成列表包含可选择以包括在所述正例字段中的建议的词语或n元词。 |
地址 |
美国华盛顿州 |