模型评估与选择

周志华  模型评估  ROC

  

2019-08-17 21:54:06

2.1 经验误差与过拟合 2.2 评估方法 2.3 性能度量 2.5 偏差与方差 2.1 经验误差与过拟合 错误率(error rate):分类错误的样本占总样本的比率 精度(accuracy):分类正确的样本占总样本的比率 误差(error):学习器的实际预测输出与样本的真实输出之间的差距(指误差期望) 训练误差(training error)或经验误差(empirical error):学习器...

       上篇主要介绍和讨论了线性模型。首先从最简单的 最小二乘法 开始,讨论输入属性有一个和多个的情形,接着通过 广义线性模型 延伸开来,将 预测连续值的回归问题转化为分类问题,从而引入了对数几率回归,最后 线性判别分析LDA 将样本点进行投影,多分类问题实质上通过划分的方法&nbs...

试答系列:“西瓜书”-周志华《机器学习》习题试答 本章目录 4.1 试证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练集一致(训练误差为0)的决策树。 4.2 试析使用“最小训练误差”作为决策树划分选择准则的缺陷。 4.3 试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数据生成一颗决策树。 1. 决策树在编程中...

文章目录 题 5.1 5.2 5.3 5.4 5.5(有问题,再调) 5.6 5.7(待写) 5.8(待写) 5.9(待写) 5.10 题 5.1 神经网络中的激活函数是为了给线性分类添加非线性因素,使其能很好进行非线性划分。如果在使用线性函数进行激活,那么无论多少层神经网络都会退化成线性回归,无法进行非线性分类。因此激活函数主要有以下几个要求: 非线性,内在反映的是模型的非线性; 可微性,以支持...

试答系列:“西瓜书”-周志华《机器学习》习题试答 本章目录 10.1 编程实现k近邻分类器,在西瓜数据集3.0α上比较其分类边界与决策树边界之异同。 10.2 令err、err*分别表示最近邻分类器与贝叶斯最优分类器的期望错误率,试证明err∗≤err≤err∗(2−∣y∣∣y∣−1err&lowa...

试答系列:“西瓜书”-周志华《机器学习》习题试答 本章目录 11.1 试编程实现Relief算法,并考察其在西瓜数据集3.0上的运行结果。 11.2 试写出Relief-F的算法描述。 11.3 Relief算法是分别考察每个属性的重要性。试设计一个能考察每一对属性重要性的改进算法。 11.4 试为LVW设计一个改进算法,即便有运行时间限制,该算法也一定能给出解。 11.5...

P69\color{red}{P69}P69 3.3编程实现对率回归,并给出西瓜数据集3.0α的结果\color{blue}{3.3 编程实现对率回归,并给出西瓜数据集3.0\alpha的结果}3.3编程实现对率回归,并给出西瓜数据集3.0α的结果 1)准备工作 数据集: 目标函数: l(β)=∑i=1m(−yiβTxi^+ln(1+...

bagging的特征:随机有放回的抽样;用随机森林做决策不能选择最优属性,只能选择随机属性。 随机森林的基分类器是决策树;随机森林不能用最佳属性做节点选择,随机选择;k决定属性的个数,在k个属性中选择最优的;—这种方式可以防止每次取最优,但是k不能等于整个属性集。 cart是用基尼指数衡量的,也可以用信息熵。cart造随机森林的时候是没有剪枝的。 不剪枝意味调参数 随机森林缺点:可解释...

简单介绍 本文使用PyTorch进行决策树的实现,在实现决策树时,选用信息增益来选择划分属性. 数据集的纯度使用信息熵来度量: Ent(D)=−∑k=1∣Y∣pklog2pk Ent(D)=-\sum_{k=1}^{|Y|}p_klog_2p_k Ent(D)=−k=1∑∣Y∣​pk​log2​pk​ Ent(D)Ent(D)Ent(D)表示信息熵, 值越小...

分类算法实战: 参考机器学习官网:https://scikit-learn.org/stable/modules/classes.html 备注: 该笔记不全,代码不能运行,只供复习需要,以后有时间,补全代码。 限制树的参数:max_depth; min_samples_split; 并不是叶子节点越多也好,要合适。还有max_leaf_nodes:最大叶子节点也可以去设 自学图形化工具:grap...

5.8 从网上下载或者实现自己的SOM网络,并观察其在西瓜会聚集3.0alpha上的结果。 书上关于SOM的介绍太简洁了,只看书上的内容基本上不可能明白SOM到底是怎么回事儿。可以阅读这篇博客:自组织映射网络SOM,增加对SOM的了解。 SOM的聚类效果并不好,不知道是不是SOM模型自身的局限性还是代码有什么问题。另外模型训练对初始化比较敏感,因为每次运行结果差别还是挺大的。...

前文 学习笔记二 一、线性判别分析的基本思想 “给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分析时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。” 书中的这段话总感觉缺了点什么,缺的就是具体的判断方法,究竟哪个位置才算“正例”和“反例&rdqu...