发明名称 文档分类方法和设备
摘要 通过从文档里出现的项中选择分类中所用的项来把文档归类到至少一种文档类别。用为每个文档类别保存的信息来计算输入文档和各个类别之间的相似度。然后修正计算出来的对各个类别的相似度。最的根据对各个类别的修正相似度确定输入文档所属的类别。
申请公布号 CN100397332C 申请公布日期 2008.06.25
申请号 CN03106814.6 申请日期 2003.03.03
申请人 惠普开发有限公司 发明人 T·卡瓦塔尼
分类号 G06F7/08(2006.01);G06F7/38(2006.01) 主分类号 G06F7/08(2006.01)
代理机构 中国专利代理(香港)有限公司 代理人 吴立明;陈霁
主权项 1.一种把给定的输入文档归类到至少一种文档类别的方法,该方法包括以下步骤:(a)从输入文档中存在的项中选择用于分类的项;(b)把输入文档分成预定单元的文档段;(c)产生文档段向量,其分量是与在文档段中出现的选中的项的频率有关的数值,还产生文档向量,其中所有的文档段向量都被加在一起;(d)用为每个文档类别保存的信息计算输入文档和每个类别之间的相似度;(e)修正到每个类别的相似度;以及(f)依照到每个类别的修正相似度确定输入文档所属的类别,其中到每个类别的相似度是通过把为每个文档类别所保存的至少一个正主题差异因子向量和各自的文档段向量之间的点积平方的加权和加到输入文档到每个类别的相似度进行修正的;并且通过从对每个类别的相似度减去为每个文档类别保存的至少一个负主题差异因子向量和各自的文档段向量之间的点积平方的加权和来对相似度进行进一步的修正。
地址 美国德克萨斯州