sklearn教程02 - sklearn数据集的获取及划分

sklearn一站式学习->: sklearn一站式学习,机器学习数据集获取与划分,无量纲化,特征提取,特征降维(低方差,皮尔逊,PCA),KNN,模型选择调优,决策树,朴素贝叶斯,岭回归,kMeans等等


python一站式学习->: python一站式学习,python基础,数据类型,numpy,pandas,机器学习,NLP自然语言处理,deepseek大预言模型,Tensorflow,CV视觉


数据集的获取网站

scikit-leran网站:https://scikit-learn.org/stable/datasets.html
kaggle网站:https://www.kaggle.com/datasets
uci数据集网站:http://archive.ics.uci.edu/

安装 sklearn

pip install scikit-learn
  • 安装scikit-learn需要依赖numpy,scipy等库

数据集:https://scikit-learn.org/stable/api/sklearn.datasets.html#module-sklearn.datasets
通过官网可以查看数据集,有股票,房屋价格,鸢尾花,糖尿病等数据集

数据集的获取

通过三种方式可以获取到数据集

1.  load_xx 小规模数据集
2.  fetch_xx(data_home=None) 大规模数据集从网上下载(科学上网)   两者都返回Bunch字典类型数据,data_home指定下载位置
3.  make_xx 生成一个数据集

bunch返回字典

data:形状为 (n_samples,) 的列表,学习用的数据列表。

target: 形状为(n_samples,)的 ndarray目标标签

filenames: 形状为(n_samples,)的列表数据位置路径

DESCR: 数据集的完整描述。

target_names:目标类别的名称列表
from sklearn.datasets import load_iris
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import make_moons

def datasets_demo():
    # 返回的是一个字典
    iris = load_iris()
    # 数据集
    print(iris["data"])
    # 目标值
    print(iris["target"])
    # 目标值的名称
    print(iris["target_names"])
    # 描述信息
    print(iris["DESCR"])

    #使用fetch获取数据
    newData = fetch_20newsgroups(data_home="D:/")
    print(newData)

    # 使用make生成月亮数据
    moonsData = make_moons()
	print(moonsData)

if __name__ == '__main__':
    datasets_demo()

数据集的划分

  • 机器学习过程中,不能把所有数据用来训练,应该分出一部分数据作为测试数据验证模型,所以要进行数据划分
    测试集20%-30% 训练集合70%-80%
from sklearn.model_selection import train_test_split

    # 数据集划分  train_test_split  测试集20%-30%  训练集70%-80%
    # test_size 测试集大小,默认是百分之25
    # random_state 随机数种子,相同的种子采样切分结果相同,以便多次切分的数据相同,进行不同方法训练,比较训练结果
    # return  训练集特征值,测试集特征值,训练集目标值,测试集目标值
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target,test_size=0.2,random_state=10)
Logo

开源鸿蒙跨平台开发社区汇聚开发者与厂商,共建“一次开发,多端部署”的开源生态,致力于降低跨端开发门槛,推动万物智联创新。

更多推荐