发明名称 | 关于关键词提取的系统和方法 | ||
摘要 | 一个示例性方面包括一种计算机系统,包括:(a)预处理单元,从网页中提取文本,以产生至少第一组候选关键词,应用语言处理以产生至少第二组候选关键词,并将所述第一组和第二组候选关键词组成第一候选池;(b)候选提取单元,从所述预处理单元接收描述至少所述第一候选池的数据,并产生第二候选池;(c)特征提取单元,接收描述至少所述第二候选池的数据,并针对一般特征和语言特征来分析所述第二候选池;以及(d)分类单元,从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据,并确定所述第二候选池中每个候选成为主关键词或次关键词的可能性。 | ||
申请公布号 | CN103201718A | 申请公布日期 | 2013.07.10 |
申请号 | CN201180053175.3 | 申请日期 | 2011.11.02 |
申请人 | 乐天株式会社 | 发明人 | 佐菲亚·斯坦基维兹;关根聪 |
分类号 | G06F7/06(2006.01)I | 主分类号 | G06F7/06(2006.01)I |
代理机构 | 中科专利商标代理有限责任公司 11021 | 代理人 | 余婧娜 |
主权项 | 一种计算机系统,包括:(a)预处理单元,从网页中提取文本以产生至少第一组候选关键词,应用语言处理以产生至少第二组候选关键词,并将所述第一组候选关键词和第二组候选关键词组成第一候选池;(b)候选提取单元,从所述预处理单元接收描述至少所述第一候选池的数据,并产生第二候选池;(c)特征提取单元,接收描述至少所述第二候选池的数据,并针对一般特征和语言特征来分析所述第二候选池;以及(d)分类单元,从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据,并确定所述第二候选池中每个候选是主关键词或次关键词的可能性。 | ||
地址 | 日本国东京都 |