发明名称 |
用于提取新复合词的系统和方法 |
摘要 |
公开了用于提取新复合词的系统和方法,以从相继出现在文本中的多个单词中,准确地检测出短语的合适部分。从多个文本提取复合词的系统包括:获得部件,其通过对多个第一文本进行分析获得复合词候选;计算部件,其在多个文本中的每一个中搜索包含在复合词候选中的单词,然后计算每个单词在每个文本中的出现频率;以及选择部件,其基于在时序数据中各单词的出现频率变化是否彼此同步,选择是否将所述复合词候选提取为复合词,所述时序数据分别表示按照第二文本的公开时间的顺序排列的每个单词的出现频率。 |
申请公布号 |
CN100568242C |
申请公布日期 |
2009.12.09 |
申请号 |
CN200710088125.4 |
申请日期 |
2007.03.15 |
申请人 |
国际商业机器公司 |
发明人 |
村上明子;渡边日出雄 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
中国国际贸易促进委员会专利商标事务所 |
代理人 |
李德山 |
主权项 |
1.一种用于从多个文本提取复合词的系统,所述系统包括:获得部件,其作为分析多个第一文本的结果而获得复合词候选;计算部件,其从多个第二文本的每个中,搜索所述复合词候选中包含的每个单词,并且计算每个单词在第二文本中的出现频率;选择部件,其基于在时序数据中各单词的出现频率变化是否彼此同步,选择是否将所述复合词候选提取为复合词,所述时序数据分别表示按照第二文本的公开时间的顺序排列的每个单词的出现频率。 |
地址 |
美国纽约 |