发明名称 训练语料扩充系统和方法
摘要 本发明提供一种通过扩充新的样本种子来自动扩充训练语料的系统和方法。其中使用样本种子收集训练语料;基于已有的样本种子和被收集的训练语料,产生新的样本种子;基于收集训练语料时所使用过的所有样本种子和新的样本种子确定训练语料扩充策略;按照训练语料扩充策略调整新的样本种子,使用调整后的新的样本种子再次收集训练语料,重复上述步骤直到达到预定的条件。本发明能够以较低的成本方便地从网络或者其它资源中自动扩充训练语料,提高训练语料的覆盖面。
申请公布号 CN1940915B 申请公布日期 2010.05.05
申请号 CN200510108065.9 申请日期 2005.09.29
申请人 国际商业机器公司 发明人 郭宏蕾;张俐;裘照明;沈丽琴;郭志立
分类号 G06F17/27(2006.01)I;G06F15/18(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 中国国际贸易促进委员会专利商标事务所 11038 代理人 吴丽丽
主权项 一种训练语料扩充系统,包括:训练语料收集单元,使用样本种子收集训练语料;样本种子扩充单元,基于训练语料收集单元以往收集训练语料时所使用的样本种子和被收集的训练语料,产生新的样本种子;均衡单元,基于训练语料收集单元所使用过的所有样本种子的分布和新的样本种子的分布确定训练语料扩充策略;调整装置,按照训练语料扩充策略调整新的样本种子,所述训练语料扩充策略包括以下信息中的至少一个:特定领域中需要进行样本种子扩充的类的信息;所述新的样本种子中需要被删除的样本种子的信息。
地址 美国纽约