发明名称 | 用于归一化文件的非数值特征的方法和装置 | ||
摘要 | 本发明公开了一种用于归一化文件的非数值特征的方法和相应装置,该方法包括:将给定文件的非数值特征的至少一对正例切分为若干单词;通过将所述至少一对正例中的单词进行比较获得匹配的单词;以及针对所述匹配的单词,计算其匹配该给定文件的权重,并将所述单词及其权重存储在单词库中。 | ||
申请公布号 | CN105701118A | 申请公布日期 | 2016.06.22 |
申请号 | CN201410708694.4 | 申请日期 | 2014.11.28 |
申请人 | 国际商业机器公司 | 发明人 | 孟繁晶;杨林;李长升;徐景民;E·H·斯特恩;卓雪君;王晗 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京市中咨律师事务所 11247 | 代理人 | 张亚非;于静 |
主权项 | 一种用于归一化文件的非数值特征的方法,包括:将给定文件的非数值特征的至少一对正例切分为若干单词;通过将所述至少一对正例中的单词进行比较获得匹配的单词;以及针对所述匹配的单词,计算其匹配该给定文件的权重,并将所述单词及其权重存储在单词库中。 | ||
地址 | 美国纽约 |