发明名称 计算机-人交互式学中的特征完成
摘要 非常大的数据集合很难进行搜索和/或分析。可以通过将查询和网页自动地分类成有用的类型,并使用这些分类评分作为相关特征,来显著地提高相关性。一种彻底的方法可能需要构建很大数量的分类器,它们对应于各种类型的信息、活动和产品。关于较大的数据集,提供分类器和架构器的生成。分类器和架构器关于数以亿计的项目进行练,可以通过增加可使用的元数据来揭示该数据固有的值。一些方面包括主动标注探索、自动正则化和冷启动、随着项目数量和分类器数量进行扩充、主动特征化、以及分割和架构化。
申请公布号 CN105393263A 申请公布日期 2016.03.09
申请号 CN201480039790.2 申请日期 2014.07.11
申请人 微软技术许可有限责任公司 发明人 P·Y·西马德;D·M·奇克林;D·G·格朗吉耶;D·X·查理;L·布特欧;C·卡西亚胡拉多苏亚雷斯
分类号 G06N99/00(2006.01)I;G06F17/27(2006.01)I 主分类号 G06N99/00(2006.01)I
代理机构 永新专利商标代理有限公司 72002 代理人 张扬;王英
主权项 一种用于机器学习的特征完成的方法,包括:存储第一组数据项,其中,每一个数据项包括词语的文本流;访问字典,其中,所述字典包括词语的列表,所述词语定义能够作为用于训练机器学习模型的输入特征来使用的概念,以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分;提供特征,其中所述特征已经被训练以用于确定位于给定词语位置的词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的概率;以及利用所述字典作为输入特征,对所述机器学习模型进行训练,其中,所述训练包括:A)针对数据项中的文本流中的所述给定词语位置,利用所提供的特征来计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第一概率,B)检查所述给定词语位置的上下文,其中,所述上下文包括挨在所述给定词语位置之前的多个词语和跟在所述给定词语位置之后的多个词语,C)基于所述给定词语位置的所述上下文中的所述词语的函数,计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第二概率,以及D)基于所计算的第一概率,修改所述函数以调整所计算的第二概率。
地址 美国华盛顿州