基于改进K-means的五声性调式识别算法优化

第一章引言

随着音乐数字化进程的加速以及计算机辅助音乐教育技术的广泛应用，五声性调式识别作为音乐信息检索领域的核心分支，其研究价值日益凸显。五声性调式作为中国传统音乐及世界民族音乐的重要结构基础，对其精准识别不仅关乎音乐理论分析的数字化实现，更对民族音乐资源的数字化保护、智能辅助作曲系统以及个性化音乐推荐服务具有显著的现实应用意义。在这一背景下，如何利用计算机技术高效、准确地解析音频信号中的调式特征，已成为当前音频处理与计算机应用技术交叉领域的重要课题。

纵观当前调式识别领域的研究现状，基于音频内容分析的算法已逐步取代传统的乐谱识别方法。其中K-means聚类算法凭借其原理简洁、收敛速度快以及对大数据集良好的适应性，被广泛应用于音频特征分类与内容识别方向。现有研究多通过提取音频的频谱特征或色调特征，利用K-means算法对音符数据进行无监督学习，从而实现调式类别的自动划分。然而传统K-means算法在处理五声性调式识别这一特定任务时，往往面临着聚类中心初始位置敏感、易陷入局部最优解以及对噪声数据鲁棒性不足等普遍问题。由于五声性调式音阶结构相对特殊且存在多种变体，传统算法在样本特征重叠或分布不均的情况下，难以精准捕捉核心音级关系，导致识别准确率与稳定性难以满足实际应用的高标准要求。

针对上述技术瓶颈，本文旨在开展基于改进K-means的五声性调式识别算法优化研究。研究的核心目标在于通过优化初始聚类中心的选择策略并引入适应性距离度量机制，克服传统算法的局限性，从而提升五声性调式识别的精度与抗干扰能力。整体研究框架将遵循从理论分析到算法设计，再到仿真实验验证的逻辑路径，首先构建标准化的五声性调式特征数据库，进而设计改进后的聚类算法模型，最终通过对比实验验证算法性能，以期为民族音乐智能化分析提供一种更为高效、可靠的技术解决方案。

第二章基于改进K-means的五声性调式识别算法优化设计

2.1五声性调式的核心特征提取与量化方法

图 1 五声性调式特征提取与量化流程

五声性调式作为中国民族音乐理论的核心体系，其区别于西方大小调体系及自然七声调式的根本特征在于音级构成的特殊性。五声性调式主要由宫、商、角、徵、羽五个正音构成，核心特征体现为半音缺失的音级结构以及小三度音程的独特地位。在算法设计层面，实现调式精准识别的前提在于将音乐理论知识转化为计算机可理解的特征向量，这需要对音级结构、音程关系及骨干音分布规律进行严密的量化处理。

针对音级结构的量化，需建立基于十二平均律的音高映射模型。将音频信号预处理后的音符频率转换为MIDI音高数值，并据此计算该音符在特定调性内的音级索引。设某音符的MIDI数值为 $p$ ，参考调式的中央音高为 $p$ ，则该音级索引 $I$ 可通过取模运算获取，公式为 $I = (p - p$ 0) \mod 12。通过对整段旋律中所有音符的音级索引进行统计，可得到一个十二维的音级直方图，该向量直观反映了旋律中各音级的出现频率。

音程关系特征的提取则侧重于分析相邻音符间的音高距离。五声性调式中，大二度与小三度是主要的旋律进行音程，而增四度、减五度等特征音程极少出现。设相邻两音符的音高分别为 $p$ 和 $p$ {i+1}，则音程值 $D$ 定义为 $D = |p$ 。统计旋律中所有 $D$ 的分布情况，重点计算大二度（2个半音）和小三度（3个半音）在总音程数中的占比，该比例是衡量五声性风格强弱的关键指标。

骨干音分布规律的量化旨在确立宫、商、角、徵、羽五个正音的稳定性。在五声调式中，调式主音与属音往往出现在乐句的强拍或长时值位置。为此，引入加权统计机制，将每个音符的时值 $t$ 与其所在拍位的强度权重 $w$ 相乘，得到该音符的加权贡献值 $C$ ，即 $C = t \times w$ 。对同一音级的所有音符加权贡献值求和，即可反映各音级作为骨干音的地位。

为消除不同音频长度对特征数值量级的影响，必须对上述特征向量进行归一化处理。对于音级频率向量，采用最大值归一化法，将各音级频率除以该向量中的最大值；对于音程占比，则直接计算其频率占比；骨干音权重向量同样采用最大值归一化。通过这一系列标准化操作，最终构建出融合音级、音程与骨干音特征的高维特征向量，为后续基于改进K-means算法的聚类分析提供规范且准确的数据输入基础。

2.2传统K-means算法在调式识别中的适配性缺陷分析

图 2 传统K-means算法在五声性调式识别中的适配性缺陷分析

传统K-means聚类算法作为一种经典的基于划分的无监督学习方法，其核心工作原理是通过迭代过程将数据集划分为若干个互不重叠的簇。该算法的运行流程通常始于随机指定初始聚类中心，随后计算样本数据到各中心的欧氏距离，依据距离最近原则将样本分配至对应簇中，完成初次划分。在后续步骤中，算法会重新计算各簇内所有样本的均值以更新聚类中心位置，并不断重复分配与更新的迭代过程，直至目标函数收敛或达到预设迭代次数。这种基于距离度量的方法在处理球形分布且簇大小相近的数据时具有较高效率，将其应用于五声性调式识别任务时，旨在依据音高或音程特征向量将音乐片段自动归类至特定调式。

然而在五声性调式识别的具体应用场景中，传统K-means算法表现出明显的适配性缺陷。由于五声性调式的特征数据在多维空间中往往呈现复杂的非凸分布或流形结构，且不同调式样本的数量存在天然的不平衡性，传统算法初始聚类中心的随机选择机制极易导致最终聚类结果陷入局部最优解。这种随机性使得算法对于同一音乐片段的多次识别可能产生截然不同的结果，严重破坏了调式识别系统在实际应用中的稳定性，无法满足对识别结果一致性的基本要求。此外传统算法默认采用欧氏距离作为簇内距离的计算标准，这种方式单纯地衡量特征点在空间中的直线距离，忽略了五声性调式内部各音级之间存在的特定逻辑结构与音程关联。这种计算方式难以准确反映不同调式样本间的真实相似度，导致识别过程容易受到噪声数据干扰，从而显著降低了最终调式分类的准确率，难以支撑高精度的音乐分析需求。

2.3基于密度峰值初始化与距离权重改进的K-means算法构建

传统K-means算法在处理五声性调式识别任务时，常因初始聚类中心选择的随机性导致算法陷入局部最优，且标准欧氏距离未考虑各音乐特征在调式判别中的贡献度差异，降低了识别精度。为解决上述适配缺陷，本研究设计了一种基于密度峰值初始化与距离权重改进的K-means算法。该算法首先通过密度峰值策略优化初始中心选择，计算样本的局部密度与相对距离，筛选出同时具备高密度与较大相对距离的样本作为初始聚类中心，从而确保中心点位于不同调式类群的密集区域，避免传统随机初始化带来的聚类不稳定性。

在距离度量方面，算法引入了基于特征重要性的权重改进机制。针对音级、音程等不同特征对五声性调式辨识的贡献差异，赋予各维度特征相应的权重系数，构建加权欧氏距离公式以替代传统距离计算方式，使算法在计算样本相似度时能更聚焦于关键判别特征，显著提升聚类效果与调式识别的准确率。

基于上述两个核心改进点，完整构建了适配五声性调式识别任务的算法流程。算法运行初期，依据样本集的分布特性自动确定初始中心参数，随后利用加权距离公式计算各样本与中心的关联程度，将样本分配至最近的簇类中。在迭代更新阶段，重新计算各类簇的均值中心，并重复分配与更新步骤，直至目标函数收敛或聚类中心不再发生显著变化。该计算规则明确了从初始化到最终收敛的参数设置逻辑，确保算法在五声性调式识别的实际应用中具备更强的鲁棒性与更高的计算效率。

2.4五声性调式识别的算法流程与决策逻辑设计

五声性调式识别的完整算法流程始于待识别音频的特征输入，终止于具体调式类别的最终输出，整个系统设计遵循数据驱动与逻辑判别相结合的原则。在系统运行初期，经过预处理与特征提取环节获得的音频特征向量，将作为输入数据送入改进后的K-means聚类模块。该模块通过优化的初始质心选择策略，有效规避了传统算法易陷入局部最优的问题，确保后续聚类分析的稳健性。随后，算法依据预设的距离度量标准，将输入特征向量迭代分配至最近的簇中，并不断更新质心位置，直至聚类结果收敛，从而完成对音频数据中潜在音高结构的无监督分类。

在获得初步聚类结果后，系统进入关键的调式类别决策阶段。由于聚类过程仅产生了数据的几何分组，尚不具备音乐理论含义，因此必须设计明确的决策规则将聚类簇映射为具体的五声性调式。决策逻辑首先依据各簇内特征点的统计特性，计算簇内音高分布的中心值，进而确定每个聚类簇所对应的平均音高及其与标准音律的偏差。在此基础上，系统通过对比分析各簇的音高排列顺序与相对音程关系，提取出最具稳定性的核心音级，通常表现为簇内样本密度最高且聚合度最大的特征集合。

最终输出的判定标准主要依赖于对核心音级性质的界定及其排列模式的识别。算法将提取出的核心音级集合与五声性调式的理论音阶结构进行模式匹配，重点核查大三度纯五度等特征性音程的存在与否。若特征点的分布严格符合宫商角徵羽五种音阶排列中的任意一种，且在关键音程关系上满足理论阈值，则判定该聚类结果有效，并据此输出对应的五声性调式类别，如C宫调式或D商调式等。这一流程设计不仅实现了从底层音频数据到高层音乐语义的转化，更通过严格的决策逻辑保证了识别结果的准确性与鲁棒性，为计算机辅助音乐分析提供了标准化的操作范式。

第三章结论

本文围绕五声性调式识别中传统K-means算法对初始聚类中心敏感且易陷入局部最优的问题，开展了系统的算法优化研究工作。研究首先对五声性调式的音阶特征与频率分布进行了深入分析，确立了以音程向量与音级出现频率作为聚类的核心特征维度。在此基础上，提出了一种基于密度峰值优化的K-means改进算法，该算法通过计算样本点的局部密度与相对距离，自动选取数据分布密集区域的样本作为初始聚类中心，有效克服了传统算法随机选取中心点导致的不稳定性。实验结果表明，改进后的算法在聚类准确率与收敛速度上均优于传统K-means算法，对于解决五声性调式识别中因乐器音色差异或演奏技巧变化引起的音高偏移问题具有显著效果。本文的研究结论验证了将密度峰值思想引入聚类算法的可行性，该优化方案能够更精准地划分音乐片段的调式类别，提高了计算机辅助音乐分析系统的鲁棒性。这一成果不仅在五声性调式自动标注、民族音乐数字图书馆建设等实际应用场景中具有明确的推广价值，也为后续研究奠定了坚实基础。未来的研究工作将进一步探索该优化方案在七声调式、教会调式及爵士乐复杂和声体系等不同音乐风格调式识别领域的拓展应用，以期构建更具普适性的音乐信息检索模型。

01 第一章引言

02 第二章基于改进K-means的五声性调式识别算法优化设计