发明名称 信息分类范例
摘要 一种用于将源文档分类到一个或两个类别中的机制,该类别或者可能包含期望信息或者不可能包含期望信息。一般地,利用某种形式的基于规则的分类并结合对于较为困难的情况使用高级技术的较深的分析。该基于规则的分类一般对基于数据之间的一般可辨认关系或基于数据是否存在,来删去各种情况不作进一步考虑或标识感兴趣的文档是有用的。较深的分析被用于揭示可以标识感兴趣的文档的数据之间更为复杂的关系。该过程的各部分可以使用整个文档,而该过程的其他部分可以仅使用文档的一部分。
申请公布号 CN101305370B 申请公布日期 2013.03.06
申请号 CN200680042170.X 申请日期 2006.11.15
申请人 微软公司 发明人 文继荣;孙燕峰;W-Y·马;聂再清;R·蒋
分类号 G06F17/30(2006.01)I;G06F17/00(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 陈斌
主权项 一种用于信息分类的方法,包括:至少部分地基于至少一个分类标识符,将一组初始源文档分类到至少三个组之一,所述至少三个组包括:包含感兴趣的文档的第一组、包含不感兴趣的文档的第二组、和包含兴趣级别不确定的文档的第三组,其中所述一组初始源文档通过以下步骤被分类到所述三个组中:选择所述源文档之一;确定至少一个分类标识符是否存在于所述源文档中;如果所述至少一个分类标识符不存在于所述源文档中,则将所述源分档分类到所述第二组中;如果所述至少一个分类标识符存在于所述源文档中,则至少部分地基于所述分类标识符通过使用片断提取器从所述源文档中提取一片断,并确定至少一个关键词是否存在于所述片断中;以及如果至少一个关键词存在于所述片断中,则将所述源文档分类到所述第一组,否则,将所述源文档分类到所述第三组中;以及对于被分类到所述第三组中的每个文档:从文档中提取至少一个特征向量;以及基于所述至少一个特征向量,将所述源文档分类到所述第一组或所述第二组中。
地址 美国华盛顿州