scikit-learn-常用库函数解析

scikit-learn 介绍

由于TensorFlow当前还没有集成易于生成人工数据集的方法,因此,我们可以使用scikit-learn 库来帮助我们生成人工数据集。

sklearn.datasets 模块生成数据集

sklearn.datasets.make_blobs()

地址:http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs

简单说明: 该函数生成块状数据集,较适合训练聚类算法。

生成数据集分布类似于下图:

参数:

n_samples : int, #可选项,默认值100 # 生成样本总数量

n_features : int #可选项,默认值2#生成样本的特征(维度)

centers : int #可选项, 默认值 3 #类型表示质心数量, array 表示提供质心,如: [n_centers, n_features],

cluster_std : float or sequence of floats #可选项,默认值 1.0#标准偏差

center_box : pair of floats (min, max), 可选项 default=(-10.0, 10.0)#波动区间

shuffle : boolean, #可选项,默认True #是否将群圈起来

random_state : int, RandomState instance or None, optional (default=None)

Returns:
X : array of shape [n_samples, n_features]#生成的数据

y : array of shape [n_samples] #生成数据所属的群

使用案例

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)