一、项目背景 北京PM2.5浓度回归分析训练赛 1.数据   数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。   数据分为训练数据和测试数据,分别保存在pm25_train.csv和pm25_test.csv两个文件中。   其中训练数据主要包括35746条记录,13个字段,主要字段说明如...

文章目录 一、决策树原理 二、查看决策树具体实现过程 三、随机森林 四、实战——这男/女朋友能不能要 一、决策树原理 决策树通过判断特征值是否满足某范围条件(通过if…else对一系列问题进行推导),并选择两条路径中的一条,不断重复这个过程直到最终实现决策。 max_depth为1的时候决策树的分类图形 max_depth为3的时候决策树的分类图形 max_d...

聚类算法(K-Means和DBSCAN) 目录 一、无监督学习与聚类算法 1、旨在理解数据自然机构的聚类 2、用于数据处理的聚类 二、核心概念 1、聚类分析 2、簇 三、基于原型的技术:K-Means 1、基于原型的簇 2、K-means的基本定义 3、算法执行细节 四、使用sklearn实现K-Means 1、重要参数:n_clusters 2、聚类算法的模型评估指标:轮廓系数 3、案例:基础轮...

决策树 Decision Tree 一、学习决策树 1、决策树模型 2、学习算法 二、 特征选择 1、香农熵 2、信息增益 3、划分数据集 三、决策树的生成 1、ID3算法 2、C4.5算法 四、决策树的拟合度优化 1、欠拟合和过拟合 2、决策树剪枝 五、CART算法 六、sklearn实现决策树 七、分类模型的评估指标 1、二分类决策树中的样本不不均衡问题 2、混淆矩阵 八、决策树算法评价 一、...

朴素贝叶斯原理及python实现 朴素贝叶斯原理 如果你压根不知道贝叶斯是啥,建议你先读读如何理解贝叶斯以便更好地读懂本文。 朴素贝叶斯在分类问题中有很广泛的应用。具体是如何应用的呢? 老祖宗贝叶斯公式给出了答案—事件A发生了,是由事件B造成的概率为: P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P({B_i}|A) = \frac{{P({B_i...

文章目录 一、具体实现步骤 第1步:数据预处理 第2步:使用简单线性回归模型来训练训练集 第3步:预测结果 第4步:可视化 训练集结果可视化 测试集结果可视化 二、可视化结果展示 训练集结果可视化结果 测试集结果可视化结果 三、知识点详解 1. 关于LinearRegression() 2. 关于数据可视化 -----代码传送门----- -----数据传送门----- 一、具体实现步骤 第1步:...

回顾 集成学习,这里我们先介绍了集成学习的相关知识,集成学习就是通过构建并结合多个学习器来完成学习任务。 然后根据个体学习器的生成方式,介绍了集成学习方法两大类: 个体学习器间存在强依赖关系,必须串行生成的序列化方法,代表是:Boosting 个体学习器间不存在强依赖关系,可同时生成的并列化方法,代表是:Bagging和随机森林(Random Forest) AdaBoost算法,这里我们具体介绍...

监督式机器学习: 机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。 1 术语: 标签:要预测的目标,简单线性回归中的 y 变量 特征:输入变量,简单线性回归中的 x 变量 样本:数据的特定实例,是一个矢量 有标签样本:同时包含特征和标签,用于训练模型 无标签样本:包含特征,不包含标签,用于对新数据做出预测 有标签数据集中的每个样本都包含一个或多个特征以及一个标签。 模型:特征...

算法工程师面试准备

机器学习

  

2019-06-17 13:11:51

【1】机器学习解决问题的通用流程        首先需要收集问题资料,深入理解问题,明确业务,将问题抽象成机器学习可解决的问题,也就是输入是什么,也就是通常所说的特征,输出是什么,也就是预测值,通过分析首先确定这是一个需要预测(分类、回归)还是需要聚类的问题。然后大致分为三个步骤:一是针对特征的,特征是连续还是离散(涉及需不需要离散化),是稀疏还是密集,高维...

作者:徐莹 1.PCA简介 使用非监督学习的方式进行数据变换有非常广泛的用途。最常见的目的就是对数据进行可视化,将数据进行压缩并为进一步处理得到一个更有效的数据表示。这其中最有效使用最广泛的技术要数PCA(Principal Component Analysis)了。 主成分分析(PCA)是一种以某种方式旋转数据集的方法,使得旋转特征在统计学上不相关。这种旋转通常是根据它们能够解释数据的能力的重要...

机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353) 案例介绍 如果你对R或Python编程、机器学习技术有了一些经验,但是对“计算机视觉”领域是个新手,那么,本案例——“数字识别”,是入门该领域的经典案例。自从1999年公布以来,MNIST这个手写数字图像数据集就成为分...

本文使用python实现了线性回归和逻辑回归算法,并使用逻辑回归在实际的数据集上预测疝气病症病马的死亡率(当然这里我们的线性回归和逻辑回归实现是原生的算法,并没有考虑正则化系数问题,后期会将其补充完整)。 有关于线性回归的知识可以参考 NG机器学习总结-(三)线性回归 逻辑回归的只是可以参考 NG机器学习总结-(四)逻辑回归。 一、线性回归 1.模型表示 2.损失函数 3.梯度...

opencv机器学习---KNN篇

机器学习

  

2019-06-27 19:07:51

原文 https://www.cnblogs.com/denny402/p/5033898.html OpenCV 3.3中给出了K-最近邻(KNN)算法的实现,即cv::ml::Knearest类,此类的声明在include/opecv2/ml.hpp文件中,实现在modules/ml/src/knearest.cpp文件中。其中: (1)、cv::ml::Knearest类:继承自cv::ml...

Machine Learning week1 note

机器学习

  

2019-07-01 14:13:07

一.Introduction 1.1 Welcome What is Machine Learning Grew out of work in AI(机器学习源于人工智能领域) New capacity for computers(ML 已经发展成为计算机的一项新能力) Examples:(机器学习应用实例) Database mining Large datasets from growth o...