日常生活中我们往往根据事物的一些特征对他们进行分类,比如饭菜的外观好不好看,咸度合不合适……那决策树也是这个原理,它会根据事物的每一个属性进行一次测试,然后分类,最后在叶子节点上就是最终分出的类。 决策树原理 好看 不好看 适中 不合适 便宜 昂贵 食物的外观 口感 价格 美食 普通 再思考 告辞 类似于上面的图,决策树就是将事物的每一种属性都拿来进行一次测试分类。 决...

目录 写在前面 聚类 数据集 k​均值(k-means)算法 聚类性能度量 初始化问题 k-means++算法 存在的问题 后记 写在前面 无监督学习算法主要作用在训练样本标记信息未知的数据集上,它的目的主要是通过对无标记训练样本的学习,来揭示数据的内在性质及规律。 无监督学习中应用最多、使用最广的是“聚类”算法。 聚类 聚类算法试图产生一个数据集的分划 分划:对于非空集...

理论         “对数几率模型”就是常说的Logistic回归,是一个经典的线性模型。考虑二分类任务,其输出标记,而线性回归模型产生的预测值是连续分布的实数,需要一个阶跃函数将连续值映射为离散二值。用一个对数几率函数近似阶跃函数,得到。从而y和1-y可以分别视为类后验概率和,简记为和。      训...

概述 AdaBoost(Adaptive Boosting)是一种集成学习技术,可将弱学习器提升为强学习器。大致思路是:根据初始训练集训练出一个基学习器,再根据基学习器的表现调整训练样本的分布,使得该基学习器分错的样本权重提高,再根据新的分布训练下一个学习器;如此反复直到学习器的数量达到预先指定值T. 算法 推导 针对上面的算法流程中的“6”和“7”...

首先稍微再补充一点理论性的知识。 关于最小化代价函数的几种算法。 Gradient Descent Normal equation Conjugate gradient BFGS L-BFGS 由于难度原因本篇只关注gradient descent梯度下降法,这个方法应用比较广泛,在无法使用正规方程法的许多条件下依然可以奏效,其对比正规方程法的优点是在数据量较大的时候仍然能取得较好的结果因为其复杂...

这篇文章主要是带来机器学习西瓜书决策书这一章的编程习题。相比机器学习实战中的对应章节有了一定的难度上的提升,主要体现在数据集中加入了连续值,对于连续值的处理不能够和离散值同等对待,否则其不同值各自分为一类显然信息增益最大,但这样在实际的应用中并没有意义甚至适得其反。这就涉及到了对于连续值的处理。 连续值处理 最简单的策略就是采用二分法对于连续值进行处理,这正是C4.5决策树算法中采用的机制。 习题...

题意分析 若基学习器直接采用不剪枝决策树,则基本上训练后的每个决策树分类器都是趋于一致。 所以为了保证个体学习器的多样性,应采用单层决策树作为基学习器,即以决策树桩作为弱学习器。 AdaBoost核心思想: 每学到一个学习器,根据其错误率确定两件事: 1.确定该学习器在总学习器中的权重。正确率越高,权重越大。 2.调整训练样本的权重。被该学习器误分类的数据提高权重,正确的降低权重,目的是在下一轮中...

编程实现k均值算法,设置三组不同的k值、三组不同初始中心点,在西瓜数据集4.0上进行实验比较,并讨论什么样的初始中心有助于得到好结果。 1.运行结果:(注:图中方块标注的点为随机选取的初始样本点) k=2时: 本次选取的2个初始向量为[[0.243, 0.267], [0.719, 0.103]] 共进行61轮 共耗时0.10s k=3时: 本次选取的3个初始向量为[[0.343, 0.099],...

  * 建站数据SuperSpider(简书) * 本项目目的: * 为练习web开发提供相关的数据; * 主要数据包括: * 简书热门专题模块信息、对应模块下的热门文章、 * 文章的详细信息、作者信息、 * 评论区详细信息、评论者信息等... * 最后存储mysql数据库.   想学习爬虫的同学也可以瞧瞧   整个项目跑完花了近十个小时, 足见数据之多, 个人web...

最近更新做“说明书大全”的时候大部分说明书都是PDF格式,想着能不能不需要用户下载,直接在网页上看到说明书的全部呢,于是找下面这段代码。 把代码放入网站内容页模板中,PDF文件名直接用标签替换,即可实现、 https://www.huaketongxin.com...

原创文章,欢迎转载。转载请注明:关东升的博客   目标(Target)与动作(Action)是iOS和OS X应用开发的中事件处理机制。   问题提出 如图所示是一个ButtonLabelSample案例设计原型图,其中包含一个标签和一个按钮,当点击按钮的时候,标签文本会从初始的Label替换为HelloWorld。     ButtonLabelSampl...

环境:VS2017  语言:C++   根据上一次的博文,龙书第四章后面有一些练习题,这边正好做一下。   先附上工程链接:https://github.com/anguangzhihen/Dx11。 1.程序最好运行在Win32上; 2.如果Common下的脚本没有找到,请到工程/属性中添加包含目录; 3.所有的练习都在其中,全局搜索“练习”...

       学习了三个星期的python基础语法,对python语法有了一个基本的了解,然后想继续深入学习,但不喜欢每天啃书本,太无聊了,只有实战才是练兵的最好效果。听说爬虫技术还是比较好玩的,就搞爬虫,但找了好多资料没有找到合适的资料,最后才找到传说中的合适爬虫初学者的书籍《Python 3网络爬虫开发实战 ,崔庆才著》(文末附书本下载链接),学习了三天...

管道流量采集实验指导书       项目较大,是我毕业设计的成果之一,完成整个项目需要的时间大概为8小时(1天,非常熟悉MFC编程),24小时(3天,熟悉MFC编程),48小时(6天,较熟悉),2周(只懂得语法) 管道流量采集实验指导书 一、 实验目的 二、 实验环境及设备 三、 设备简介 3.1 RS-485现场总线 3.2 MODBU...

百度路书API 需求分析 在路书跑完后,隐藏小车图标 页面效果 html 点击开始按钮的事件 method 数据格式 说明:由于百度路书js没有提供回调方法,以上代码基于百度路书稍作改动,改动后js可去csdn搜索“百度路书添加回调后js”进行下载或联系本人发送...