1.加载数据集 导包 AdaBoostClassifier这个模型中,几个比较重要的参数:学习器的数量,学习率,选用何种分类器,选用哪种算法。 2.测试AdaBoostClassifier的预测性能随基础分类器的数量的影响 总结:随着算法的推进,每一轮迭代都产生一个新的个体分类器被集成。此时集成分类器的训练误差和测试误差都在下降。当个体分类,数量达到一定值时,集成分类器的预测准确率再一定范围内波动...

在pycharm中键入 而后安装command点击LogisticRegression可以查看它的参数如下: 各参数的含义如下: 1.正则化选择参数:penalty也称作惩罚项。 LogisticRegression默认的正则化项是l2正则化。如果在调参时主要目的是解决overfitting,一般会选择l2正则化。但是当预测结果不好时,可选用l1正则化。 2.dual:对偶或者原始方法,默认为fa...

569个样本,30个特征,357个正样本(阳性) 分成训练集和测试集 模型优化: 增加多项式特征 使用正则项 原来是特征30个,增加二阶多项式特征后,特征增加到495个,但l1正则后保留特征(非0)只有94。 二阶L1正则模型最优,训练样本上评分最高,交叉验证样本评分也最高。但间隙比较大,可以采集更多训练数据...

使用sklearn.preprocessing.PolynomialFeatures来进行特征的构造。 它是使用多项式的方法来进行的,如果有a,b两个特征,那么它的2次多项式为(1,a,b,a^2,ab, b^2)。 PolynomialFeatures有三个参数 degree:控制多项式的度 interaction_only: 默认为False,如果指定为True,那么就不会有特征自己和自己结合...

3-5-1K均值聚类

SKLEARN

  

2019-12-14 02:31:06

cluster memberships:<n[1 2 2 2 0 0 0 2 1 1 2 2 0 1 0 0 0 1 2 2 0 2 0 1 2 0 0 1 1 0 1 1 0 1 2 0 2 2 2 0 0 2 1 2 2 0 1 1 1 1 2 0 0 0 1 0 2 2 1 1 2 0 0 2 2 0 1 0 1 2 2 2 0 1 1 2 0 0 1 2 1 2 2 0 1 1 1 ...

sklearn习题

sklearn

  

2019-12-20 02:02:17

Step1: Step2: Step3和Step4: 测试: 结果: Step5: 通过观察这十个测试,可以知道RandomForest是三个算法中最好的,而SVC差一些,朴素贝叶斯是最差的。...

中文文档地址 KNneighborsClassifier参数说明: n_neighbors:默认为5,就是k-NN的k的值,选取最近的k个点。 weights:默认是uniform,参数可以是uniform、distance,也可以是用户自己定义的函数。uniform是均等的权重,就说所有的邻近点的权重都是相等的。distance是不均等的权重,距离近的点比距离远的点的影响大。用户自定义的函数,接...

sklearn聚类KMeans

Sklearn

  

2020-01-23 18:06:21

KMeans是最简单的聚类算法了,算法将一组N个样本的特征矩阵划分为K个无交集的簇,直观上来看是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类。 n_clusters 是KMeans中的k,k=模型划分为几类(必填参数,默认为8),但我们通常的结果会是一个小于8的结果。 代码实现(观察数据集的数据分布): 分成1-10簇分别的代码实现:...

在随机森林和决策树中,存在两种模型表现:训练集上和测试集上的表现。在建模过程中,追求模型在测试集上表现最优,因此模型的评价指标往往是用来衡量模型在测试集上的表现。然而逻辑回归有着基于训练数据求解参数的需求,并且希望训练出来的模型能够尽可能的拟合训练数据,即模型在训练集上的预测准确率越靠近100%越好。 因此使用“损失函数”这个评估指标,来衡量参数的优劣,即这一参数能否是模型...