sklearn教程02 - sklearn数据集的获取及划分
·
sklearn教程02 - sklearn数据集的获取及划分
sklearn一站式学习->: sklearn一站式学习,机器学习数据集获取与划分,无量纲化,特征提取,特征降维(低方差,皮尔逊,PCA),KNN,模型选择调优,决策树,朴素贝叶斯,岭回归,kMeans等等
python一站式学习->: python一站式学习,python基础,数据类型,numpy,pandas,机器学习,NLP自然语言处理,deepseek大预言模型,Tensorflow,CV视觉
数据集的获取网站
scikit-leran网站:https://scikit-learn.org/stable/datasets.html
kaggle网站:https://www.kaggle.com/datasets
uci数据集网站:http://archive.ics.uci.edu/
安装 sklearn
pip install scikit-learn
- 安装scikit-learn需要依赖numpy,scipy等库
数据集:https://scikit-learn.org/stable/api/sklearn.datasets.html#module-sklearn.datasets
通过官网可以查看数据集,有股票,房屋价格,鸢尾花,糖尿病等数据集
数据集的获取
通过三种方式可以获取到数据集
1. load_xx 小规模数据集
2. fetch_xx(data_home=None) 大规模数据集从网上下载(科学上网) 两者都返回Bunch字典类型数据,data_home指定下载位置
3. make_xx 生成一个数据集
bunch返回字典
data:形状为 (n_samples,) 的列表,学习用的数据列表。
target: 形状为(n_samples,)的 ndarray目标标签
filenames: 形状为(n_samples,)的列表数据位置路径
DESCR: 数据集的完整描述。
target_names:目标类别的名称列表
from sklearn.datasets import load_iris
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import make_moons
def datasets_demo():
# 返回的是一个字典
iris = load_iris()
# 数据集
print(iris["data"])
# 目标值
print(iris["target"])
# 目标值的名称
print(iris["target_names"])
# 描述信息
print(iris["DESCR"])
#使用fetch获取数据
newData = fetch_20newsgroups(data_home="D:/")
print(newData)
# 使用make生成月亮数据
moonsData = make_moons()
print(moonsData)
if __name__ == '__main__':
datasets_demo()
数据集的划分
- 机器学习过程中,不能把所有数据用来训练,应该分出一部分数据作为测试数据验证模型,所以要进行数据划分
测试集20%-30% 训练集合70%-80%
from sklearn.model_selection import train_test_split
# 数据集划分 train_test_split 测试集20%-30% 训练集70%-80%
# test_size 测试集大小,默认是百分之25
# random_state 随机数种子,相同的种子采样切分结果相同,以便多次切分的数据相同,进行不同方法训练,比较训练结果
# return 训练集特征值,测试集特征值,训练集目标值,测试集目标值
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target,test_size=0.2,random_state=10)
更多推荐
所有评论(0)