决策树(decision tree)是一类常见的机器学习方法。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。一颗决策树包含一个根节点、若干个内部节点和若干个叶节点。叶节点对应于决策结果,其他每个节点则对应于一个属性测试。 决策树学习的目的是从样本数据产生一颗泛化能力强的决策树,其基本流程遵循简单且直观的“分而治之”策略: 算法有两...

1.主成分分析概述 主成分分析是最为简单粗暴的一种数据降维方式,顾名思义就是找到数据中最为主要的方面,用这些方面来替代原始数据。具体来说,假设我们有一个具有n维特征的数据集,共有m个样本点,我们希望将这m个样本的特征维度从n维降到b维,希望b维数据尽可能的替代原始数据集。 其中最为重要的因素就是如何保证减少维度后数据损失尽可能的小 如下图所示,我们试图将二维数据降到一维,图中列出两个维度PC1和P...

结合源码分析第三章中实现的Demo 运行环境:Anaconda——Jupyter Notebook Python版本为:3.6.2(原书代码实现为2.x 所以在一些代码上略有改动) 阅读本博文你将获取: 1.决策树的基本思想 2.信息增益和熵的概念——本文中使用信息增益作为划分数据集的标准 3.全部的代码实现,且包含了大部分注释,便于初学者者理解 4...

什么是机器学习 机器学习是一门能够让编程计算机从数据中学习的计算机科学(和艺术)。 工程化定义: 一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称之为机器学习。 为什么要使用机器学习 1.通过机器学习算法可以简化那些现有解决方案需要大量手动调整或者规则列表超长的问题的代码,并且提升执行表现; 比如用传统编程技术编写垃圾...

数据集下载地址: 链接:https://pan.baidu.com/s/1iWzxK8hlxRHh8pz46576pg 密码:tsu5 当我们完成了数据的预处理环节后,我们可以先对数据进行可视化,根据图像可以初步的判断我们的模型应该是怎么样的,如何更好地拟合,请看下面的例子: 数据集: Position Level Salary Business Analyst 1 45000 Junior Co...

数据集的概况: 1. 性别:保险承包商性别,女性,男性 2. bmi:身体质量指数,提供对身体的理解,相对于身高相对较高或较低的重量,使用身高与体重之比的体重客观指数(kg /平方公尺),理想情况下为18.5至24.9 3. 儿童:健康保险覆盖的儿童人数/家属人数 4. 吸烟者:吸烟 5. 地区:受益人在美国,东北,东南,西南,西北的住宅区。 6. 费用:由健康保险计费的个人医疗费用 最终的回归器...

    将含有很多特征的数据,简化到只有少数最重要的特征,这就被称为降维。在低维下,数据更容易被处理,另外,其相关特征可能在数据中明确显示出来。通常而言,在应用机器学习算法之前,必须先识别出其相关特征。     在降维中,对数据进行了预处理。之后,采用其他机器学习技术对其进行处理。 1.1 降维技术     数据简化有下列一些列原因: &...

奇异值分解:SVD(singular value decomposition) 1.1 SVD的应用     利用SVD我们能用小的多的数据来表示原始的数据集。这样做,实际上是去除了噪声和冗余信息。我们是从数据中抽取信息。基于这个视角,我们可以把SVD看成从噪声数据中提取相关特征。     先来学习SVD是如何通过隐性语义索引应用于搜索和信息检索领域的。然后...

一、 前言 主要记录本人在《机器学习实战》这本书中学习到的相关算法。 基本概念 数据集类型 各种算法适应的数据集种类不同,主要分为标称型和数值型。 标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析) 二、分类算法 (1...

贷款利润最大化

机器学习实战

  

2019-11-19 05:21:32

数据下载地址 https://www.lendingclub.com/info/download-data.action 数据预处理 –去掉没用的特征 统计loan_status取值的次数 数据预处理 – 拿到最多的两个值作为分类的值–这里做二分类 只有24列了: [‘initial_list_status’, ‘collec...

    当作重要决定的时候我们往往参考的不只是一个专家的意见。机器学习问题也是这样,这就是元算法背后的思路。元算法是对其他算法的一种组合方式。我们集中关注于一个称作adaboost的最流行算法的元算法。该方法是机器学习工具箱中最强有力的工具之一。     我们先讨论不同分类器的集成方法,然后主要关注boosting方法机器代表分类器adaboost。在接下来...