发明名称 |
基于深度学的多模态融合的歌曲情感识别方法 |
摘要 |
本发明公开了一种基于深度学的多模态耦合的歌曲情感识别方法,其特征是按如下步骤进行:1获取歌曲歌词文本数据和音频语音数据;2对歌词文本内容进行文本特征提取,获得歌词文本信息特征;3提取歌曲语音数据的第一语音特征和第二语音特征并进行第一次融合,获得歌曲语音信息特征;4对歌词文本信息特征和歌曲语音信息特征进行第二次融合,获得歌曲的综合信息特征;5利用深度分类器对综合信息特征进行训练,获得歌曲情感识别模型,以歌曲情感识别模型实现对歌曲的多模态融合的情感识别。本发明能全面结合歌曲的歌词文本信息和歌曲音频信息两个方面的数据信息,从而提高人机交互中的对歌曲情感状态判断的准确度。 |
申请公布号 |
CN106228977A |
申请公布日期 |
2016.12.14 |
申请号 |
CN201610625990.7 |
申请日期 |
2016.08.02 |
申请人 |
合肥工业大学 |
发明人 |
孙晓;陈炜亮;任福继 |
分类号 |
G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/18(2013.01)I;G10L15/26(2006.01)I |
主分类号 |
G10L15/02(2006.01)I |
代理机构 |
安徽省合肥新安专利代理有限责任公司 34101 |
代理人 |
陆丽莉;何梅生 |
主权项 |
一种基于深度学习的多模态融合的歌曲情感识别方法,其特征是如下步骤进行:步骤1:收集歌曲的歌词文本数据库和歌曲的音频数据库;步骤2:利用N‑gram算法对所述歌词文本数据库中的歌词文本进行特征提取,获得歌词文本信息特征;步骤3:利用梅尔频率倒谱系数对所述音频数据库中的音频数据进行语音特征提取,获得歌曲的第一语音信息特征;步骤4:提取所述音频数据的韵律学特征,所述韵律学特征包括:语速、振幅特征、基音周期和共振峰,从而获得歌曲的第二语音信息特征;步骤5:利用深度学习方法对所述第一语音信息特征,第二语音信息特征和歌词文本特征进行数据降维,获得降维后的第一语音信息特征、第二语音特征和歌词文本信息特征;步骤6:将所述降维后的第一语音信息特征和第二语音信息特征进行第一次融合,获得歌曲语音信息特征;步骤7:将所述歌曲语音特征与降维后的歌词文本特征进行第二次融合,获得歌曲综合信息特征;步骤8:利用分类器对所述歌曲综合信息特征进行训练,获得歌曲多模态情感分类识别模型;步骤9、利用所述歌曲多模态情感类别识别模型对待识别的歌曲进行情感分类识别,从而获得待识别的歌曲的情感类别。 |
地址 |
230009 安徽省合肥市包河区屯溪路193号 |