发明名称 用于标识具有最高出现频率的项目的方法和设备
摘要 问题本发明涉及用于在文本数据流中包括的项目之中标识具有最高出现频率的项目的方法和设备。具体地,涉及有效地在大量文本数据流中包括的项目之中标识具有最高出现频率的项目的方法、设备和计算机程序。解决手段将标识项目的标识信息和项目的计数存储在存储器的较高级中,以及仅将标识信息存储在低于存储器的较高级的存储器的较低级中。接收文本数据流输入,响应于将从所接收的文本数据流输入划分出的桶中包括的项目的标识信息存储在存储器的较高级中,增加项目的计数的增量,响应于存储在存储器的较低级中,向存储器的较高级传送项目的标识信息以及初始计数,响应于没有存储在任何级中,将项目的标识信息以及初始计数新存储在存储器的较高级中。
申请公布号 CN103377147B 申请公布日期 2016.03.30
申请号 CN201310132171.5 申请日期 2013.04.16
申请人 国际商业机器公司 发明人 R·H·鲁迪;小柳光生;恐神贵行
分类号 G06F17/18(2006.01)I 主分类号 G06F17/18(2006.01)I
代理机构 北京市金杜律师事务所 11256 代理人 酆迅;李峥宇
主权项 一种用于使用具有多个级的存储器的计算机系统来在文本数据流中包括的项目之中标识具有高出现频率的项目的方法,其将用于标识项目的标识信息以及项目的计数存储在所述具有多个级的存储器的存储器的较高级中,以及仅将标识信息存储在所述具有多个级的存储器中的低于所述存储器的较高级的存储器的较低级中,所述方法包括步骤:接收文本数据流输入,以及响应于从所接收的文本数据流输入划分出的桶中包括的项目的标识信息存储在所述存储器的较高级中,增加项目的计数的增量,响应于存储在所述存储器的较低级中,向所述存储器的较高级传送所述项目的标识信息以及初始计数,以及响应于没有存储在任何级中,将所述项目的标识信息与所述初始计数一起新存储在所述存储器的较高级中。
地址 美国纽约阿芒克