发明名称 |
群集系统、方法、程序和使用群集系统的属性估计系统 |
摘要 |
一种用于对语言模型组进行群集的群集系统,包括:并集语言模型建立单元,其为每一个语言模型建立并集语言模型,以将词汇的并集作为条目包括在语言模型组中;以及群集单元,其对并集语言模型组进行群集,以将并集语言模型组分类成多个群集。当并集语言模型建立单元为特定语言模型建立并集语言模型时,该并集语言模型建立单元以包含在该特定语言模型中的词汇为基础,记录该特定语言模型中的对应条目的出现频率,并且对于没有包含在该特定语言模型中的词汇,记录表示出现频率为0的数据。由此,可以提供能够对包含由多个发言人发出的语音或书写的文本的语言模型进行群集的群集系统。 |
申请公布号 |
CN101042868A |
申请公布日期 |
2007.09.26 |
申请号 |
CN200610101321.6 |
申请日期 |
2006.07.14 |
申请人 |
富士通株式会社 |
发明人 |
小岛英树 |
分类号 |
G10L15/06(2006.01);G10L15/00(2006.01) |
主分类号 |
G10L15/06(2006.01) |
代理机构 |
北京三友知识产权代理有限公司 |
代理人 |
李辉;吕俊刚 |
主权项 |
1、一种群集系统,其对包括与多个属性值相对应的多个语言模型的语言模型组进行群集,每一个语言模型都与表示人的预定属性的属性值相关联,并且具有多个条目,这些条目包括表现为由一个或更多个具有使用属性值表示的属性的人发出的语音或者书写的文本的词汇以及表示所述词汇的出现频率的数据,所述群集系统包括:并集语言模型建立单元,其生成表示包含在所述语言模型组中的词汇的并集的并集数据,并使用所述并集数据建立并集语言模型,所述并集语言模型包括所述词汇的并集和所述词汇的出现频率,为包含在所述语言模型组中的每一个语言模型建立所述并集语言模型,以建立并集语言模型组;以及群集单元,其根据预定的方法对所述并集语言模型组进行群集,以将所述并集语言模型组分类成多个群集,并且生成表示包含在每一个群集中的并集语言模型中的一个或更多个的群集数据,其中,当所述并集语言模型建立单元为特定语言模型建立并集语言模型时,所述并集语言模型建立单元与所述特定语言模型中的词汇的出现频率相关联地记录包含在所述并集数据中的词汇当中的包含在所述特定语言模型中的词汇,作为所述并集语言模型中的条目,并且与表示出现频率为0的数据相关联地记录包含在所述并集数据中的词汇当中的没有包含在所述特定语言模型中的词汇,作为所述并集语言模型中的条目。 |
地址 |
日本神奈川县川崎市 |