数据集下载地址: 链接:https://pan.baidu.com/s/1iWzxK8hlxRHh8pz46576pg 密码:tsu5 当我们完成了数据的预处理环节后,我们可以先对数据进行可视化,根据图像可以初步的判断我们的模型应该是怎么样的,如何更好地拟合,请看下面的例子: 数据集: Position Level Salary Business Analyst 1 45000 Junior Co...

数据集的概况: 1. 性别:保险承包商性别,女性,男性 2. bmi:身体质量指数,提供对身体的理解,相对于身高相对较高或较低的重量,使用身高与体重之比的体重客观指数(kg /平方公尺),理想情况下为18.5至24.9 3. 儿童:健康保险覆盖的儿童人数/家属人数 4. 吸烟者:吸烟 5. 地区:受益人在美国,东北,东南,西南,西北的住宅区。 6. 费用:由健康保险计费的个人医疗费用 最终的回归器...

    将含有很多特征的数据,简化到只有少数最重要的特征,这就被称为降维。在低维下,数据更容易被处理,另外,其相关特征可能在数据中明确显示出来。通常而言,在应用机器学习算法之前,必须先识别出其相关特征。     在降维中,对数据进行了预处理。之后,采用其他机器学习技术对其进行处理。 1.1 降维技术     数据简化有下列一些列原因: &...

奇异值分解:SVD(singular value decomposition) 1.1 SVD的应用     利用SVD我们能用小的多的数据来表示原始的数据集。这样做,实际上是去除了噪声和冗余信息。我们是从数据中抽取信息。基于这个视角,我们可以把SVD看成从噪声数据中提取相关特征。     先来学习SVD是如何通过隐性语义索引应用于搜索和信息检索领域的。然后...

一、 前言 主要记录本人在《机器学习实战》这本书中学习到的相关算法。 基本概念 数据集类型 各种算法适应的数据集种类不同,主要分为标称型和数值型。 标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析) 二、分类算法 (1...

贷款利润最大化

机器学习实战

  

2019-11-19 05:21:32

数据下载地址 https://www.lendingclub.com/info/download-data.action 数据预处理 –去掉没用的特征 统计loan_status取值的次数 数据预处理 – 拿到最多的两个值作为分类的值–这里做二分类 只有24列了: [‘initial_list_status’, ‘collec...

    当作重要决定的时候我们往往参考的不只是一个专家的意见。机器学习问题也是这样,这就是元算法背后的思路。元算法是对其他算法的一种组合方式。我们集中关注于一个称作adaboost的最流行算法的元算法。该方法是机器学习工具箱中最强有力的工具之一。     我们先讨论不同分类器的集成方法,然后主要关注boosting方法机器代表分类器adaboost。在接下来...

数据集下载地址:https://pan.baidu.com/s/1HaBVhEmSaBKBfZVRMww56Q 密码:qlge 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间...

回归案例②

机器学习  实战  线性回归

  

2019-07-19 23:37:55

数据集来源: 从UCI数据集库下载得到的关于建筑物的供暖负荷和冷负荷要求(即能效)与建筑参数的关系 数据集信息: 我们使用Ecotect中模拟的12种不同建筑形状进行能量分析。建筑物在玻璃窗区域,玻璃区域分布和方向以及其他参数方面不同。我们模拟各种设置作为上述特征的函数,以获得768个建筑形状。该数据集包括768个样本和8个特征,旨在预测两个实值响应。如果响应四舍五入到最接近的整数,它也可以用作多...

  模型树     用树来对数据建模,除了把叶节点简单的设定为常数值之外,还有一种方法是把叶节点设定为分段线性函数。这里所谓的分段线性是指模型由多个线性片段组成。          上图就是两个线性模型,数据集中0.0-0.3以某个线性模型建模,另一部分以另外一个线性模型建模。     很...

    通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品定价,市场促销,存货管理等环节。从大规模数据集中寻找物品的隐含关系称为 关联分析 或则 关联规则学习。我们将使用Apriori算法来解决上述问题。     下面首先讨论关联分析,再讨论apriori原理,apriori算法正是基于该原理得到的。 &n...

    我们在搜索引擎上查询东西时,搜索引擎就会自动补全查询词项。为了给出这些推荐的词时,搜索引擎公司的研究人员就需要本章的算法来查找互联网上经常出现在一起的词队。这需要一种高效的发现频繁项集的方法。     该算法为FP-growth,比之前的apriori更快。它基于apriori构建,但在完成相同任务时采取了一些不同的技术。这里的任务时将数据集存储在一...

    本节将使用logistic回归来预测患有病的马的存活问题。数据集包括368个样本和28特征。          数据集中有部分指标是主观的难以测量,数据集中有30%是缺失的。下面我们将介绍如何处理数据集中的数据缺失问题,然后再利用logistic回归和随机梯度上升法来预测病马的生死。    ...

这个月开始练习《机器学习实战》,原书比较久远了,且代码和练习都是基于Python2,我个人是升级到了Python3,因此使用最新的版本来写这些习题。具体2和3其实在基础语法上并没有太多差别,一些高级特性比如装饰器工厂,协程,IO等Python3的新用法,一般机器学习也用不上,因为追求性能的话都会用C/C++等语言去实现,Python只是小规模的测试用。 课程数据和代码也放在我的Github:Mac...