发明名称 用于归一化文件的非数值特征的方法和装置
摘要 本发明公开了一种用于归一化文件的非数值特征的方法和相应装置,该方法包括:将给定文件的非数值特征的至少一对正例切分为若干单词;通过将所述至少一对正例中的单词进行比较获得匹配的单词;以及针对所述匹配的单词,计算其匹配该给定文件的权重,并将所述单词及其权重存储在单词库中。
申请公布号 CN105701118A 申请公布日期 2016.06.22
申请号 CN201410708694.4 申请日期 2014.11.28
申请人 国际商业机器公司 发明人 孟繁晶;杨林;李长升;徐景民;E·H·斯特恩;卓雪君;王晗
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市中咨律师事务所 11247 代理人 张亚非;于静
主权项 一种用于归一化文件的非数值特征的方法,包括:将给定文件的非数值特征的至少一对正例切分为若干单词;通过将所述至少一对正例中的单词进行比较获得匹配的单词;以及针对所述匹配的单词,计算其匹配该给定文件的权重,并将所述单词及其权重存储在单词库中。
地址 美国纽约