1.加载数据集 导包 AdaBoostClassifier这个模型中,几个比较重要的参数:学习器的数量,学习率,选用何种分类器,选用哪种算法。 2.测试AdaBoostClassifier的预测性能随基础分类器的数量的影响 总结:随着算法的推进,每一轮迭代都产生一个新的个体分类器被集成。此时集成分类器的训练误差和测试误差都在下降。当个体分类,数量达到一定值时,集成分类器的预测准确率再一定范围内波动...

在pycharm中键入 而后安装command点击LogisticRegression可以查看它的参数如下: 各参数的含义如下: 1.正则化选择参数:penalty也称作惩罚项。 LogisticRegression默认的正则化项是l2正则化。如果在调参时主要目的是解决overfitting,一般会选择l2正则化。但是当预测结果不好时,可选用l1正则化。 2.dual:对偶或者原始方法,默认为fa...

569个样本,30个特征,357个正样本(阳性) 分成训练集和测试集 模型优化: 增加多项式特征 使用正则项 原来是特征30个,增加二阶多项式特征后,特征增加到495个,但l1正则后保留特征(非0)只有94。 二阶L1正则模型最优,训练样本上评分最高,交叉验证样本评分也最高。但间隙比较大,可以采集更多训练数据...

使用sklearn.preprocessing.PolynomialFeatures来进行特征的构造。 它是使用多项式的方法来进行的,如果有a,b两个特征,那么它的2次多项式为(1,a,b,a^2,ab, b^2)。 PolynomialFeatures有三个参数 degree:控制多项式的度 interaction_only: 默认为False,如果指定为True,那么就不会有特征自己和自己结合...

Matplotlib是Python数据可视化工具包,IPython为Matplotlib专门提供了特殊的交互模式。如果要在IPython控制台使用Matplotlib,可以使用ipython–matplotlib命令来启动IPython控制台程序;如果要在IPython notebook里使用Matplotlib,则在notebook的开始位置插入%matplotlib inline魔...

sklearn学习(二)

sklearn  python

  

2019-06-20 17:43:04

学习网站 http://scikit-learn.org/stable/tutorial/statistical_inference/index.html Statistical learning: the setting and the estimator object in scikit-learn 通过下面代码: 可以获取到对应的数据描述: 数据长度处理 一般来说,sklearn里面的数据都...

sklearn初探 机器学习的本质就是借助数学模型理解数据。当我们给模型装上可以适应观测数据的可调参数时,学习就开始了,此时的程序被认为具有从数据中“学习”的能力。一旦模型可以拟合旧的观测数据,那么它们就可以预测并解释新的观测数据。 目前,python有不少可以实现各种机器学习算法的程序库。Scikit-Learn是最流行的程序包之一,它为各种常见机器学习算法提供了高效版本...

线性回归 如果说朴素贝叶斯是解决分类任务的好起点,那么线性回归模型就是解决回归任务的好起点。 简单的线性回归 LinearRegression评估器除了简单的直线拟合,它还可以处理多维度的线性回归模型:y=a0+a1x1+a2x2+...y=a0+a1x1+a2x2+... 里面有多个xx变量。从几何学的角度看,这个模型是拟合三维空间中的一个平面,或者是更多维度的数据点的一个超平面。 基函数回归 ...

朴素贝叶斯 朴素贝叶斯模型是一组非常简单快速的分类方法啊,通常适用于维度非常高的数据集。因为运行速度快,而且可调参数少,因此非常适合为分类问题提供快速粗糙的基本方案。之所以成为“朴素”或“朴素贝叶斯”,是因为如果对每一种标签的生成模型(用于计算每个标签的P(特征|Li)P(特征|Li)进行非常简单的假设,就能找到每种类型生成模型的近似解,然后就可以使...

超参数与模型验证 模型验证就是在选择模型和超参数之后,通过对训练数据进行学习,对比模型对已知数据的预测值与实际值的差异。模型验证的正确方法是使用留出集评估模型性能,即先从训练模型中的数据中留出一部分,然后用这部分留出来的数据检验模型性能。 但是,使用留出集使得模型失去了一部分训练机会,解决这个问题的方法是交叉验证,也就是做一组拟合,让数据的每个子集既是训练集,又是验证集。 Scikit-Learn...

主要成分分析(PCA) 主要成分分析(PCA)可能是应用最广泛的无监督算法之一。虽然PCA是一种非常基础的降维算法,但它仍然是非常有用的工具,尤其适用于数据可视化、噪音过滤、特征抽取和特征工程等领域。由于PCA用途广泛、可解释性强,所以可以有效应用于大量情景和科学中。对于任意高维的数据集,可以从PCA开始,可视化点间的关系、理解数据中的主要变量。PCA并不是一个对每个高维数据集都有效的算法,但是它...