选择数据集 乳腺癌 编程参考资料: 针对Breast-Cancer(乳腺癌)数据集 数据集划分方法 他人答案 以下是乳腺癌的原代码,别急着用 现在检查哪里出问题了ε=(´ο`*))) 因为代码都是搬运的,大佬们实验么得问题,所以分块核对: 1.针对block#1复核他人代码,不同之处有三: 归一化未处理:他人代码注释掉数据归一化后再实验,结果变动不大; ...

题3.1 试析在什么情况下f(x)=w^(T)+b中不必考虑偏置项b 首先要知道为什么要加偏置项?它的作用是什么?在之前学过的一次函数中,b其实就是函数在y轴的截距,控制着函数偏离原点的距离,那么在线性模型中应该也是类似作用。看了这个博主的文章,大概意思就是加偏置项是为了更好的拟合数据。 其实我自己看到这个题第一反应是,如果让 fi-fj,这样就可以消掉b了,自然也就不用考虑它。也就是让所有数据集...

引言 最近在读西瓜书,查阅了多方资料,恶补了数值代数、统计概率和线代,总算是勉强看懂了西瓜书中的公式推导。但是知道了公式以后还是要学会应用的,几经摸索发现python下的sklearn包把机器学习中经典的算法都封装好了,因此,打算写几篇博客记录一下sklearn包下的常用学习算法的使用,防止自己以后忘了,嘿嘿。(太忙了,拖拖拉拉几个月只写了六篇,但是还是要加油!) 1.特征降维 降维实际上就是把高...

日常生活中我们往往根据事物的一些特征对他们进行分类,比如饭菜的外观好不好看,咸度合不合适……那决策树也是这个原理,它会根据事物的每一个属性进行一次测试,然后分类,最后在叶子节点上就是最终分出的类。 决策树原理 好看 不好看 适中 不合适 便宜 昂贵 食物的外观 口感 价格 美食 普通 再思考 告辞 类似于上面的图,决策树就是将事物的每一种属性都拿来进行一次测试分类。 决...

Bagging简介 Bagging是并行式集成学习的最著名代表,名字是由Bootstrap AGGregatING缩写而来,看到Bootstrap我们就会联想到boostrap的随机模拟法和它对应的样本获取方式,它是基于自助采样法(Boostrap sampleing),Bagging也是同理.给定包含m个样本的数据集,先随机抽取一个样本放入采样集中,再把该样本放回,使得下次采样时该样本仍有机会被...

文章目录 题 5.1 5.2 5.3 5.4 5.5(有问题,再调) 5.6 5.7(待写) 5.8(待写) 5.9(待写) 5.10 题 5.1 神经网络中的激活函数是为了给线性分类添加非线性因素,使其能很好进行非线性划分。如果在使用线性函数进行激活,那么无论多少层神经网络都会退化成线性回归,无法进行非线性分类。因此激活函数主要有以下几个要求: 非线性,内在反映的是模型的非线性; 可微性,以支持...

目录 写在前面 聚类 数据集 k​均值(k-means)算法 聚类性能度量 初始化问题 k-means++算法 存在的问题 后记 写在前面 无监督学习算法主要作用在训练样本标记信息未知的数据集上,它的目的主要是通过对无标记训练样本的学习,来揭示数据的内在性质及规律。 无监督学习中应用最多、使用最广的是“聚类”算法。 聚类 聚类算法试图产生一个数据集的分划 分划:对于非空集...

理论         “对数几率模型”就是常说的Logistic回归,是一个经典的线性模型。考虑二分类任务,其输出标记,而线性回归模型产生的预测值是连续分布的实数,需要一个阶跃函数将连续值映射为离散二值。用一个对数几率函数近似阶跃函数,得到。从而y和1-y可以分别视为类后验概率和,简记为和。      训...

题目:编程实现基于信息熵进行划分选择的决策树算法,并为西瓜数据集3.0上(P84表4.3)中的数据生成一棵决策树; 代码: 生成决策树: 西瓜数据集Excel文件到这里去找: https://blog.csdn.net/macunshi/article/details/80756016 我的代码是参考这位https://www.cnblogs.com/Kermit-Li/p/4503427.htm...

  1 引言 1.1 机器学习的定义:机器学习就是计算机自动获取知识,研究如何使用计算机来模拟人类学习活动的一门学科,研究计算机获取新知识和新技能、识别现有知识、不断改善性能、实现自我完善的方法。 2 基本术语 2.1 数据集:对于一个问题,一些数据所组成的集合叫做数据集。                 &...

西瓜书4.3题python代码实现 简介 数据集 代码实现 1、画决策树 决策树生成算法: 结果 简介 编程实现基于交叉熵进行划分选择的决策树算法,并为表4.3中数据生成一颗决策树。 数据集 代码实现 这里的代码主要分成两个部分,一个是画出决策树,一个是生成决策树数据。个人感觉这题难的地方是画出决策树。。。 1、画决策树 决策树生成算法: 这个没什么好说的,就按照树上的伪代码实现就好了,主要要注意...

bagging的特征:随机有放回的抽样;用随机森林做决策不能选择最优属性,只能选择随机属性。 随机森林的基分类器是决策树;随机森林不能用最佳属性做节点选择,随机选择;k决定属性的个数,在k个属性中选择最优的;—这种方式可以防止每次取最优,但是k不能等于整个属性集。 cart是用基尼指数衡量的,也可以用信息熵。cart造随机森林的时候是没有剪枝的。 不剪枝意味调参数 随机森林缺点:可解释...

CART决策树使用“基尼指数”(Gini index)来选择划分属性。书上并没有写出具体的例子供参考,这里给出一个例子。 首先先列出求取基尼指数所需要用的公式。 数据集D的纯度可用基尼值来度量。Gini(D)越小,则数据集D的纯度越高。(Pk指的是正例在总体中的比例) 属性a的基尼指数定义为: 求取得出属性a的基尼指数后,再求取其他属性的基尼指数,最后比较获得基尼指数最小的...

分类算法实战: 参考机器学习官网:https://scikit-learn.org/stable/modules/classes.html 备注: 该笔记不全,代码不能运行,只供复习需要,以后有时间,补全代码。 限制树的参数:max_depth; min_samples_split; 并不是叶子节点越多也好,要合适。还有max_leaf_nodes:最大叶子节点也可以去设 自学图形化工具:grap...