发明名称 一种音乐片段的伸缩抗性区间的计算方法
摘要 本发明涉及一种音乐片段的伸缩抗性区间的计算方法,属于音频处理技术领域。首先建立音乐伸缩抗性数据集,得到伸缩抗性分布直方图,对其进行等面积切分形成伸缩抗性类别,提取多种音频内容特征形成音乐片段的特征向量,并进行泛化处理,并求解出对角矩阵,使用音乐风格区分音乐片段的相异程度,在K近邻判别下,计算出待处理片段的伸缩抗性区间。本发明方法首次提出对音乐伸缩抗性的量化表示方法,以音频内容特征为主,以音乐风格为辅,并结合机器学的策略实现了对音乐伸缩抗性区间的计算,具有较高精确度,且操作简洁,它能够直接被用于音乐重构算法中的参数估计,和音乐心理学、语音感知中关于人感知音乐片段的特性的研究。
申请公布号 CN102831910B 申请公布日期 2015.01.14
申请号 CN201210247939.9 申请日期 2012.07.17
申请人 清华大学 发明人 王朝坤;陈俊
分类号 G06F17/00(2006.01)I;G11B20/14(2006.01)I 主分类号 G06F17/00(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 罗文群
主权项 一种音乐片段的伸缩抗性区间的计算方法,其特征在于该方法包括以下步骤:(1)选择多个不同风格的音乐片段,由多人进行试听实验,根据个人听觉的舒适度确定每个音乐片段的伸缩抗性值,根据多个音乐片段的伸缩抗性值建立一个音乐伸缩抗性数据集,进而得到音乐伸缩抗性数据集中伸缩抗性分布直方图H,其中横坐标为伸缩抗性值,从0.00到2.00,纵坐标为伸缩抗性值出现的频数;(2)对上述分布直方图H进行等面积切分,将伸缩抗性值中的最大延展率α<sub>max</sub>和最小缩短率α<sub>min</sub>各划分为r个子区间,将每个子区间定义为一个伸缩抗性类别,得到伸缩抗性类别的集合L,具体过程如下:(2‑1)令m为音乐伸缩抗性数据集中音乐片段总数,则每个伸缩抗性类别含有的音乐片段数为<img file="FDA0000574368460000011.GIF" wi="195" he="100" />令抗性类别集合L为空,设判断边界值w=1.00,初始化伸缩抗性区间的下界R<sub>low</sub>=0.00,上界R<sub>up</sub>=w;(2‑2)对伸缩抗性区间的下界R<sub>low</sub>进行判断,若R<sub>low</sub>≥w,则得到伸缩抗性类别的集合L,若R<sub>low</sub><w且R<sub>low</sub>≥R<sub>up</sub>,则停止当前计算直到得到伸缩抗性类别的集合L,若R<sub>low</sub><w且R<sub>low</sub><R<sub>up</sub>,从上述分布直方图H的伸缩抗性区间[R<sub>low</sub>,R<sub>up</sub>)中找到频数最高的伸缩抗性值α<sub>x</sub>,并从分布直方图H得到相应的出现频数F<sub>x</sub>;(2‑3)对上述出现频数F<sub>x</sub>进行判断,若F<sub>x</sub><m<sub>avg</sub>,则进行步骤(2‑4),若F<sub>x</sub>≥m<sub>avg</sub>,则使抗性类别集合L=L∪{&lt;α<sub>x</sub>,α<sub>x</sub>+δ&gt;},其中δ为不同伸缩抗性值之间的最小距离,即分布直方图H中横坐标相邻刻度的距离,∪表示对集合求并集的操作;然后同时分别执行两步,其一是令伸缩抗性区间的下界R<sub>low</sub>保持不变,伸缩抗性区间的上界R<sub>up</sub>=α<sub>x</sub>‑δ,再重复步骤(2‑2),其二是令伸缩抗性区间的上界R<sub>up</sub>保持不变,伸缩抗性区间的下界R<sub>low</sub>=α<sub>x</sub>+δ,再重复步骤(2‑2);直到上述步骤(2‑2)中,R<sub>low</sub>≥w,得到伸缩抗性类别的集合L,或R<sub>low</sub><w且R<sub>low</sub>≥R<sub>up</sub>,停止当前计算直到得到伸缩抗性类别的集合L;(2‑4)设定一个抗性指示变量q,q的取值为从伸缩抗性区间的下界R<sub>low</sub>开始以分布直方图H中相邻伸缩抗性值之间的最小距离δ递增,且q<R<sub>up</sub>,计算分布直方图H中从下界R<sub>low</sub>到q的所有伸缩抗性值出现的频数的和S,S的初始值为0,得到结果S≥m<sub>avg</sub>,或q≥R<sub>up</sub>,对得到的结果进行判断,若S≥m<sub>avg</sub>,则令L=L∪{&lt;R<sub>low</sub>,q+δ&gt;},R<sub>low</sub>=q+δ,q=R<sub>low</sub>,重复本步骤,直到q≥R<sub>up</sub>;若q≥R<sub>up</sub>,则令L=L∪{&lt;R<sub>low</sub>,q&gt;},并停止重复本步骤,直到步骤(2‑2)得到伸缩抗性类别的集合L;(2‑5)令步骤(2‑1)中的判断边界值w=2.0,初始化伸缩抗性区间的下界R<sub>low</sub>=1.00,上界R<sub>up</sub>=w,执行步骤(2‑2),添加对α<sub>max</sub>的伸缩抗性类别划分,得到总的伸缩抗性类别的集合L;(3)从抗性类别集合L中,得到与音乐伸缩抗性数据集中每个音乐片段的伸缩抗性值相对应的类别,分别对每个音乐片段作出类别标注R<sub>min</sub>和R<sub>max</sub>,分别提取每个音乐片段的音频内容特征,音频内容特征包括频谱时域特征、梅尔倒谱系数和色度,并将频谱时域特征、梅尔倒谱系数和色度的组合作为该音乐片段的与R<sub>min</sub>分类对应的特征向量,将频谱时域特征和色度的组合作为该音乐片段的与R<sub>max</sub>分类对应的特征向量;(4)对步骤(3)得到的每个音乐片段的特征向量进行泛化处理:令X<sub>min</sub>(M<sub>i</sub>)表示与上述音乐伸缩抗性数据集中与R<sub>min</sub>分类对应的第i个音乐片段的特征向量,则{X<sub>min</sub>(M<sub>1</sub>),…,X<sub>min</sub>(M<sub>n</sub>)}表示与音乐伸缩抗性数据集中与R<sub>min</sub>分类对应的所有音乐片段的特征向量集合,分别计算该特征向量集合中各向量的第j个维度出现的最大值max<sub>j</sub>和最小值min<sub>j</sub>,使x<sub>j</sub>=(x<sub>j</sub>‑min<sub>j</sub>)/(max<sub>j</sub>‑min<sub>j</sub>),其中x<sub>j</sub>为上述特征向量集合中各个特征向量的第j个维度的特征值;同理,令{X<sub>max</sub>(M<sub>1</sub>),…,X<sub>max</sub>(M<sub>n</sub>)}表示与R<sub>max</sub>分类对应的所有音乐片段的特征向量集合,分别计算该特征向量集合中各向量的第p个维度的最大值max<sub>p</sub>和最小值min<sub>p</sub>,使x<sub>p</sub>=(x<sub>p</sub>‑min<sub>p</sub>)/(max<sub>p</sub>‑min<sub>p</sub>),其中x<sub>p</sub>为该特征向量集合中各个特征向量第p个维度的特征值;(5)定义音乐伸缩抗性数据集中,具有步骤(3)标注的相同伸缩抗性类别的音乐片段满足伸缩抗性相似关系,记该相似关系为Must‑Link,具有步骤(3)标注的不同伸缩抗性类别的音乐片段满足伸缩抗性相异关系,记该相异关系为Cannot‑Link,建立一个优化目标函数g(A):<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>g</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><msub><mi>m</mi><mi>i</mi></msub><mo>,</mo><msub><mi>m</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>Must</mi><mo>-</mo><mi>Link</mi></mrow></munder><msubsup><mi>D</mi><mrow><mi>A</mi><mo>_</mo><mi>diag</mi></mrow><mn>2</mn></msubsup><mrow><mo>(</mo><msub><mi>m</mi><mi>i</mi></msub><mo>,</mo><msub><mi>m</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>log</mi><mrow><mo>(</mo><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>Cannot</mi><mo>-</mo><mi>Link</mi></mrow></munder><msub><mi>D</mi><mrow><mi>A</mi><mo>_</mo><mi>diag</mi></mrow></msub><mrow><mo>(</mo><msub><mi>m</mi><mi>i</mi></msub><mo>,</mo><msub><mi>m</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000574368460000031.GIF" wi="1424" he="127" /></maths>其中A为待求解的对角矩阵,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>D</mi><mrow><mi>A</mi><mo>_</mo><mi>diag</mi></mrow></msub><mrow><mo>(</mo><msub><mi>m</mi><mi>i</mi></msub><mo>,</mo><msub><mi>m</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msqrt><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>d</mi></msubsup><msub><mi>A</mi><mi>kk</mi></msub><msup><mrow><mo>(</mo><msub><mi>m</mi><mi>ik</mi></msub><mo>-</mo><msub><mi>m</mi><mi>jk</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>,</mo></mrow>]]></math><img file="FDA0000574368460000032.GIF" wi="833" he="113" /></maths>初始化时,设对角矩阵A中所有对角元为1,d为特征向量的维数,利用梯度下降算法,迭代求解对角矩阵A,对角矩阵A中的对角元即为特征向量各维度的权重A<sub>kk</sub>;(6)从待处理的音乐片段中提取频谱时域特征、梅尔倒谱系数和色度,并将频谱时域特征、梅尔倒谱系数和色度的组合作为待处理音乐片段的与R<sub>min</sub>分类对应的特征向量,将频谱时域特征和色度的组合作为该音乐片段的与R<sub>max</sub>分类对应的特征向量;根据上述步骤(4)计算得到的特征向量集合中各向量的第s个维度的最大值max<sub>s</sub>和最小值min<sub>s</sub>,以及第s个维度的特征向量值x<sub>s</sub>,并采用步骤(4)的泛化处理方法,对待处理的音乐片段的特征向量进行泛化处理,得到待处理音乐片段的特征向量;(7)设定待处理音乐片段的音乐风格;(8)根据上述步骤(5)得到的特征向量各维度的权重A<sub>kk</sub>,计算待处理音乐片段m<sub>u</sub>与上述音乐伸缩抗性数据集中各个音乐片段m<sub>v</sub>的相异程度D<sub>final</sub>(m<sub>u</sub>,m<sub>v</sub>),<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>D</mi><mi>final</mi></msub><mrow><mo>(</mo><msub><mi>m</mi><mi>u</mi></msub><mo>,</mo><msub><mi>m</mi><mi>v</mi></msub><mo>)</mo></mrow><mo>=</mo><msqrt><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>d</mi></msubsup><msub><mi>A</mi><mi>kk</mi></msub><msup><mrow><mo>(</mo><msub><mi>m</mi><mi>uk</mi></msub><mo>-</mo><msub><mi>m</mi><mi>vk</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><mi>&lambda;f</mi><mrow><mo>(</mo><msub><mi>m</mi><mi>u</mi></msub><mo>,</mo><msub><mi>m</mi><mi>v</mi></msub><mo>)</mo></mrow></msqrt><mo>,</mo></mrow>]]></math><img file="FDA0000574368460000033.GIF" wi="1022" he="91" /></maths>其中<img file="FDA0000574368460000034.GIF" wi="739" he="136" />λ为设定的音乐风格权重参数,取值范围为0到1之间的实数,采用K近邻判别方法,将出现频数最高的伸缩抗性类别作为给定音乐片段的伸缩抗性类别,亦即音乐伸缩抗性区间。
地址 100084 北京市海淀区清华园1号