sklearn教程02 - sklearn数据集的获取及划分

qq_41226562

573人浏览 · 2025-05-21 16:30:05

qq_41226562 · 2025-05-21 16:30:05 发布

sklearn教程02 - sklearn数据集的获取及划分

sklearn一站式学习->: sklearn一站式学习，机器学习数据集获取与划分，无量纲化，特征提取，特征降维（低方差，皮尔逊，PCA）,KNN，模型选择调优，决策树，朴素贝叶斯，岭回归，kMeans等等

python一站式学习->: python一站式学习，python基础，数据类型，numpy，pandas,机器学习，NLP自然语言处理，deepseek大预言模型，Tensorflow，CV视觉

数据集的获取网站

scikit-leran网站：https://scikit-learn.org/stable/datasets.html
kaggle网站：https://www.kaggle.com/datasets
uci数据集网站：http://archive.ics.uci.edu/

安装 sklearn

pip install scikit-learn

安装scikit-learn需要依赖numpy,scipy等库

数据集：https://scikit-learn.org/stable/api/sklearn.datasets.html#module-sklearn.datasets
通过官网可以查看数据集，有股票，房屋价格，鸢尾花，糖尿病等数据集

数据集的获取

通过三种方式可以获取到数据集

1.  load_xx 小规模数据集
2.  fetch_xx（data_home=None） 大规模数据集从网上下载（科学上网）   两者都返回Bunch字典类型数据,data_home指定下载位置
3.  make_xx 生成一个数据集

bunch返回字典

data：形状为 (n_samples,) 的列表，学习用的数据列表。

target: 形状为（n_samples,）的 ndarray目标标签

filenames: 形状为（n_samples,）的列表数据位置路径

DESCR: 数据集的完整描述。

target_names:目标类别的名称列表

from sklearn.datasets import load_iris
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import make_moons

def datasets_demo():
    # 返回的是一个字典
    iris = load_iris()
    # 数据集
    print(iris["data"])
    # 目标值
    print(iris["target"])
    # 目标值的名称
    print(iris["target_names"])
    # 描述信息
    print(iris["DESCR"])

    #使用fetch获取数据
    newData = fetch_20newsgroups(data_home="D:/")
    print(newData)

    # 使用make生成月亮数据
    moonsData = make_moons()
	print(moonsData)

if __name__ == '__main__':
    datasets_demo()

数据集的划分

机器学习过程中，不能把所有数据用来训练，应该分出一部分数据作为测试数据验证模型，所以要进行数据划分
测试集20%-30% 训练集合70%-80%

from sklearn.model_selection import train_test_split

    # 数据集划分  train_test_split  测试集20%-30%  训练集70%-80%
    # test_size 测试集大小，默认是百分之25
    # random_state 随机数种子，相同的种子采样切分结果相同,以便多次切分的数据相同，进行不同方法训练，比较训练结果
    # return  训练集特征值，测试集特征值，训练集目标值，测试集目标值
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target,test_size=0.2,random_state=10)

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

2026山东大学软件学院创新项目实训（团队——3）

V4L2设备↓Camera HDI↓Pipeline↓↓Camera App其中任何一层配置不匹配，都可能导致最终表现异常。通过本次适配，我们完成了 MUSEPaper2 平台从“识别摄像头”到“完整使用摄像头”的过程，也进一步理解了 OpenHarmony 外设适配中硬件、系统服务和应用之间的协同关系。这次工作的重点不仅是让摄像头运行起来，更是建立了一套从底层定位问题到系统级验证的适配流程。

开源鸿蒙跨平台开发者社区

2026山东大学软件学院创新项目实训（团队——8）

↓↓HCI HDI↓↓UART↓通过本次适配，团队完成了 MUSEPaper2 平台蓝牙功能从基础服务运行到实际通信链路打通的过程。同时也进一步认识到，在 OpenHarmony 设备适配过程中，一个功能是否可用并不取决于单个模块，而需要硬件配置、系统服务、驱动接口以及应用层之间保持一致。目前 MUSEPaper2 蓝牙功能已经具备稳定运行能力，为后续无线功能完善和系统整体适配提供了基础。

开源鸿蒙跨平台开发者社区

Watchman：Meta 出品的文件监控服务，构建工具链的隐藏主力

Meta开源的Watchman是一款高效的文件监控工具，专为开发场景设计。它通过调用操作系统底层机制（如Linux的inotify、macOS的FSEvents）实现低耗监控，支持跨平台运行和复杂文件状态查询，远超普通轮询工具。Watchman不仅能触发预设动作（如重新编译），还具备大规模项目验证优势，被React、React Native等生态广泛采用。虽然对小项目可能过度，但在monorepo