全面解析sklearn.datasets：load数据集导入与使用指南

a_lazy_bone

1256人浏览 · 2025-11-01 23:03:29

a_lazy_bone · 2025-11-01 23:03:29 发布

全面解析sklearn.datasets：load数据集导入与使用指南

Scikit-learn是Python中最受欢迎的机器学习库之一，它提供了一个专门的数据集模块sklearn.datasets，用于帮助用户快速获取和生成实验数据。本文将详细介绍该模块中load_开头的数据集，特别是它们的导入方法和使用技巧。

1. sklearn.datasets模块概述

sklearn.datasets模块提供了多种获取数据集的方式，主要可分为三类：

数据集类型	加载函数前缀	数据特点	使用场景
玩具数据集	`load_`	数据量小，内置在sklearn中	快速测试和算法学习
真实世界数据集	`fetch_`	数据量较大，需下载	更真实的模型测试
生成数据集	`make_`	自定义生成数据	特定场景的算法验证

玩具数据集是scikit-learn内置的小型标准数据集，安装sklearn后这些数据就已经在安装文件夹下，无需额外下载。真实世界数据集规模较大，首次调用时程序会自动从网络下载。生成数据集则允许用户自定义生成特定用途的数据集，如用于聚类、分类等任务的数据。

2. load_iris()函数详解

load_iris()是机器学习中最经典的数据集之一，非常适合初学者入门。下面详细解析该函数的各项参数和返回值。

2.1 函数基本用法

from sklearn.datasets import load_iris

# 最基本用法
iris = load_iris()

2.2 参数详解

load_iris()函数有两个重要参数：

return_X_y：布尔值，默认为False。当设置为True时，函数返回(data, target)元组，而不是Bunch对象。
as_frame：布尔值，默认为False。当设置为True时，返回pandas DataFrame/Series而不是NumPy数组。

2.3 不同参数组合示例

# 示例1：默认返回Bunch对象
iris_bunch = load_iris()
print(type(iris_bunch))  # <class 'sklearn.utils.Bunch'>

# 示例2：返回(data, target)元组
X, y = load_iris(return_X_y=True)
print(f"特征数据形状: {X.shape}")  # (150, 4)
print(f"目标变量形状: {y.shape}")   # (150,)

# 示例3：返回DataFrame格式
iris_df = load_iris(as_frame=True)
print(type(iris_df.data))  # <class 'pandas.core.frame.DataFrame'>

# 示例4：同时使用两个参数
X, y = load_iris(return_X_y=True, as_frame=True)

3. Bunch对象详解

load_函数返回的是一个Bunch对象，这是一种类似字典的数据结构，可以通过属性或键值对方式访问数据。

3.1 Bunch对象的关键属性

下表列出了Bunch对象中包含的主要属性：

属性名	描述	数据类型	示例
`data`	特征数据矩阵	ndarray或DataFrame	形状为(150, 4)的数组
`target`	目标变量（标签）	ndarray或Series	形状为(150,)的数组
`feature_names`	特征名称列表	list	[‘sepal length (cm)’, …]
`target_names`	目标类别名称	list	[‘setosa’, ‘versicolor’, ‘virginica’]
`frame`	包含data和target的DataFrame	DataFrame	仅当as_frame=True时存在
`DESCR`	数据集的完整描述	str	包含数据集详细信息的长字符串
`filename`	数据集文件路径	str	数据在系统中的存储路径

3.2 实际应用示例

from sklearn.datasets import load_iris
import pandas as pd

# 加载数据
iris = load_iris()

# 查看Bunch对象的键
print("Bunch对象的键:", list(iris.keys()))
# 输出: ['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module']

# 查看数据的基本信息
print("数据形状:", iris.data.shape)  # (150, 4)
print("目标变量形状:", iris.target.shape)  # (150,)
print("特征名称:", iris.feature_names)
# 输出: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
print("目标类别:", iris.target_names)
# 输出: ['setosa', 'versicolor', 'virginica']

# 查看数据描述
print(iris.DESCR[:300] + "...")  # 只显示前300个字符

# 将数据转换为DataFrame以便更好地查看
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target
df['species'] = df['target'].apply(lambda x: iris.target_names[x])
print(df.head())

运行结果示例：

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target species
0                5.1               3.5                1.4               0.2       0  setosa
1                4.9               3.0                1.4               0.2       0  setosa
2                4.7               3.2                1.3               0.2       0  setosa
3                4.6               3.1                1.5               0.2       0  setosa
4                5.0               3.6                1.4               0.2       0  setosa

4. 其他常用load数据集简介

除了鸢尾花数据集，sklearn还提供了多个常用的玩具数据集：

4.1 葡萄酒数据集（load_wine）

from sklearn.datasets import load_wine

wine = load_wine()
print("葡萄酒数据集形状:", wine.data.shape)  # (178, 13)
print("葡萄酒特征数:", len(wine.feature_names))  # 13
print("葡萄酒类别:", wine.target_names)  # ['class_0' 'class_1' 'class_2']

# 同样可以转换为DataFrame
wine_df = pd.DataFrame(wine.data, columns=wine.feature_names)
wine_df['target'] = wine.target

4.2 乳腺癌数据集（load_breast_cancer）

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
print("乳腺癌数据集形状:", cancer.data.shape)  # (569, 30)
print("特征名称:", cancer.feature_names)

4.3 手写数字数据集（load_digits）

from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

digits = load_digits()
print("手写数字数据集形状:", digits.data.shape)  # (1797, 64)
print("图像形状:", digits.images.shape)  # (1797, 8, 8)

# 显示一个数字图像
plt.figure(figsize=(3, 3))
plt.imshow(digits.images[0], cmap=plt.cm.gray_r)
plt.title(f"标签: {digits.target[0]}")
plt.show()

5. 数据集的应用与划分

加载数据集后，通常需要将其划分为训练集和测试集，以便评估模型性能：

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 划分数据集（70%训练，30%测试）
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"训练集大小: {X_train.shape[0]}")
print(f"测试集大小: {X_test.shape[0]}")

train_test_split函数的stratify参数确保训练集和测试集中各类别比例与原数据集一致。

6. 注意事项与最佳实践

版本兼容性：某些数据集在不同版本的sklearn中可能有变化，如波士顿房价数据集在较新版本中已被移除。
数据探索：在建模前，始终先使用DESCR属性了解数据集背景，使用feature_names和target_names理解数据含义。
数据预处理：虽然玩具数据集通常已经过清理，但真实数据仍需预处理（如标准化、处理缺失值等）。
选择合适的数据集：根据任务类型选择合适的数据集：
- 分类任务：鸢尾花、葡萄酒、乳腺癌数据集等
- 回归任务：糖尿病数据集等（但需注意波士顿房价数据集已弃用）

7. 总结

sklearn.datasets模块中的load_数据集为机器学习初学者和实践者提供了便捷的实验数据。通过掌握Bunch对象的结构和属性，以及数据集的加载、探索和划分方法，能够为机器学习项目奠定坚实的基础。

记住，理解数据是构建优秀模型的第一步。利用好sklearn提供的数据集工具，将大大提高机器学习工作的效率和质量。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

OpenHarmony List 列表与 LazyForEach 懒加载深度实战（API Version23 + 专用）

本文全部代码严格适配 OpenHarmony API Version23 及以上系统，针对高版本 List 渲染引擎、滚动回调、懒加载数据源、下拉刷新、分组头部做完整适配。List 搭配 LazyForEach 是海量数据列表唯一高性能方案，API23 大幅优化条目复用与内存占用，但同步提高了代码规范约束，旧项目升级必须改造懒加载数据源监听逻辑、分页防抖、刷新参数。开发长列表遵循三大核心规范：统一

开源鸿蒙跨平台开发者社区

OpenHarmony 英语学习 App 实战：学习成就系统与数据可视化面板设计

开源鸿蒙跨平台开发者社区

OpenHarmony Column 纵向布局组件全场景开发（API Version23 + 适配版）

本文所有代码完全兼容 OpenHarmony API Version23 及以上系统，针对高版本布局引擎重构带来的枚举变更、废弃属性、权重算法、滚动规则做完整适配。Column 作为纵向布局核心容器，在 API23 中依靠 space 间距、双轴对齐、layoutWeight 自适应权重、Blank 空白填充四大核心能力，覆盖登录、设置、图文卡片、长滚动页面全部业务场景。