掌握聚类算法：选择最佳簇的数量

本章深入探讨了聚类分析中确定最佳簇数量的方法。通过对比不同的聚类指标，包括轮廓系数、Calinski-Harabasz指数和Davies-Bouldin指数，我们能够评估聚类的效果。使用scikit-learn和Yellowbrick库，本章展示了如何可视化和分析聚类结果，以及如何利用层次聚类方法（如Ward方法）来构建树状图并决定簇的数量。此外，还探讨了如何通过实际数据集来理解聚类结果，并使用统

罗博深

463人浏览 · 2025-04-13 09:40:22

罗博深 · 2025-04-13 09:40:22 发布

掌握聚类算法：选择最佳簇的数量

背景简介

在机器学习和数据分析中，聚类是一种无监督学习技术，用于将数据集中的样本分组成多个簇。选择最佳的簇数量是聚类分析中的一个关键问题。本篇博客将基于提供的书籍章节内容，深入探讨如何使用不同的聚类指标来评估和选择最佳的簇数量。

理解聚类指标

在聚类分析中，当真实标签未知时，我们可以通过计算聚类指标来评估聚类效果。这些指标包括：

轮廓系数

轮廓系数是一个介于-1和1之间的值，它衡量样本间的相似度。分数越高表示效果越好，1表示紧密的簇，0表示重叠的簇。通常情况下，我们希望得到尽可能高的轮廓系数。

Calinski-Harabasz指数

Calinski-Harabasz指数是类间离散度与类内离散度的比率，更高的分数意味着更好的聚类效果。对于这个指标，更高的值通常表明簇内样本的相似度高，而簇间样本的相似度低。

Davies-Bouldin指数

Davies-Bouldin指数是每个簇与最近簇之间的平均相似度。分数范围从0开始，越小表示更好的聚类效果。

视觉化聚类效果

为了直观地评估聚类效果，可以使用Yellowbrick的SilhouetteVisualizer工具来绘制每个簇的轮廓分数。通过视觉化的方法，我们可以快速地确定最佳的簇数量。

层次聚类方法

层次聚类是一种不同的聚类方法，它从每个样本自成一个簇开始，然后逐步合并最近的簇，直至所有样本聚集成一个簇。通过scipy库，我们可以生成一个树状图（dendrogram）来可视化这个过程。树状图的高度代表了簇之间的相似度，通过在树状图中“切割”水平线，可以确定数据中簇的数量。

如何应用这些方法

通过一系列的代码示例，本章节展示了如何使用scikit-learn和scipy库来计算不同的聚类指标，并通过Yellowbrick可视化工具来分析聚类效果。此外，通过结合使用这些工具和方法，我们能够更深入地理解数据集中簇的分布和特征。

总结与启发

在聚类分析中，选择最佳的簇数量是一个复杂但至关重要的步骤。通过使用轮廓系数、Calinski-Harabasz指数和Davies-Bouldin指数等指标，我们可以更系统地评估聚类效果。结合视觉化工具，如Yellowbrick的SilhouetteVisualizer和scipy的树状图，我们可以更直观地理解数据集中的簇结构。通过这些方法，我们不仅能够选择最佳的簇数量，还能够深入分析每个簇的特征，为数据解释提供有力支持。

展望

在未来，我们可以探索更高级的聚类算法和指标，以及如何将这些方法应用于不同的数据集和业务问题中。同时，也可以研究如何进一步自动化聚类分析过程，以提高效率和准确性。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

OpenHarmony API8升API9：权限与接口变更实战指南

功能模块API8 (旧版)API9 (新版)核心变更点Context 获取(在 Ability 内部)摆脱对的依赖，使用原生生命周期属性。权限管理结合使用结合实例使用接口调用更加面向对象，参数传递更规范。全局变量依赖模块单例推荐使用GlobalThis解决跨模块 Context 丢失和单例失效问题。媒体库旧版接口等接口重构，初始化强依赖 Context。通过以上步骤和代码示例，即使是初学者也能清晰

开源鸿蒙跨平台开发者社区

OpenHarmony平台移植 gifsicle：C/C++ 三方库适配实践（Lycium / tpc_c_cplusplus）

本文介绍了如何将gifsicle工具适配到OpenHarmony平台，主要内容包括：适配流程标准化：通过tpc_c_cplusplus仓库的Lycium框架管理交叉编译，只需提供6个标准文件（HPKBUILD、HPKCHECK等）即可完成适配。 gifsicle特殊处理：由于源码需要先执行bootstrap.sh生成configure脚本，需在prepare()阶段添加这一步骤。提供完整的HP

开源鸿蒙跨平台开发者社区

OpenHarmony LiteOS-M LittleFS 文件系统调试与修复实战

OpenHarmony LiteOS-M LittleFS 文件系统调试与修复实战摘要：本文记录了在LoongArch架构ls2k300_mini_dp开发板上调试OpenHarmony 6.1 LittleFS文件系统问题的全过程。初始症状包括"BAD file"错误、文件创建失败等问题。通过逐步调试发现：1) VfsMpFind函数路径匹配逻辑存在缺陷，导致mount p