一、项目背景 北京PM2.5浓度回归分析训练赛 1.数据   数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。   数据分为训练数据和测试数据,分别保存在pm25_train.csv和pm25_test.csv两个文件中。   其中训练数据主要包括35746条记录,13个字段,主要字段说明如...

文章目录 一、决策树原理 二、查看决策树具体实现过程 三、随机森林 四、实战——这男/女朋友能不能要 一、决策树原理 决策树通过判断特征值是否满足某范围条件(通过if…else对一系列问题进行推导),并选择两条路径中的一条,不断重复这个过程直到最终实现决策。 max_depth为1的时候决策树的分类图形 max_depth为3的时候决策树的分类图形 max_d...

聚类算法(K-Means和DBSCAN) 目录 一、无监督学习与聚类算法 1、旨在理解数据自然机构的聚类 2、用于数据处理的聚类 二、核心概念 1、聚类分析 2、簇 三、基于原型的技术:K-Means 1、基于原型的簇 2、K-means的基本定义 3、算法执行细节 四、使用sklearn实现K-Means 1、重要参数:n_clusters 2、聚类算法的模型评估指标:轮廓系数 3、案例:基础轮...

决策树 Decision Tree 一、学习决策树 1、决策树模型 2、学习算法 二、 特征选择 1、香农熵 2、信息增益 3、划分数据集 三、决策树的生成 1、ID3算法 2、C4.5算法 四、决策树的拟合度优化 1、欠拟合和过拟合 2、决策树剪枝 五、CART算法 六、sklearn实现决策树 七、分类模型的评估指标 1、二分类决策树中的样本不不均衡问题 2、混淆矩阵 八、决策树算法评价 一、...

朴素贝叶斯原理及python实现 朴素贝叶斯原理 如果你压根不知道贝叶斯是啥,建议你先读读如何理解贝叶斯以便更好地读懂本文。 朴素贝叶斯在分类问题中有很广泛的应用。具体是如何应用的呢? 老祖宗贝叶斯公式给出了答案—事件A发生了,是由事件B造成的概率为: P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P({B_i}|A) = \frac{{P({B_i...

本文使用的数据集是YALE_32X32.mat和COIL20.mat数据集,这两个数据集应该是很容易就可以得到的。这里给出两个数据集链接 https://pan.baidu.com/s/1wrBpIHUjC9tCwGwVPKMPNg 提取码:s45a 用Python来可视化数据集其实很简单当然也可以用C++或Matlab可视化也可以的,但是本人偏向于喜欢用Python来而且Python的优点很多接...

文章目录 一、数据预处理 (一)、使用StandardScaler进行数据的预处理 (二)、使用MinMaxScaler进行数据预处理 (三)、使用RobustScaler进行数据预处理 (四)、使用Normalizer进行数据预处理 (五)、使用MaxAbsScaler进行数据预处理 (六)、使用QuantileTransformer进行数据预处理 (七)、对红酒数据集进行数据预处理 二、数据降...

考研结束,算起来有半年没写程序啦,基础函数都有些记不清了,所以代码基本上每一行都写上了注释,帮助理解记忆。 疫情严重,不能出门,那就宅在家里一起学习吧~ 争取日更! 章节内容 k-近邻算法的基本理论; 如何使用距离测量的方法分类物品; 使用Python从文本文件中导入并解析数据; 当存在许多数据来源时,如何避免计算距离时可能碰到的一些常见错误; 使用k-近邻算法改进约会网站和手写数字识别系统。 k...

数据描述 泰坦尼克号乘客信息数据集共有1313条乘客信息,并且有些特征数据是完整的(如pclass、name),有些则是缺失的;有些事数值型的,有些则是字符串 特征选择 机器学习有一个不太被初学者重视并且耗时,但是十分重要的一环 —— 特征的选择,这个需要基于一些背景知识。根据我们对这场事故的了解,sex,age,pclass这些特征都很有可能是决定幸免于否的关键因素 借由...

一、简介 为了能够更好的学习文本挖掘相关的内容,本人准备对机器学习、深度学习等等相关内容都进行一定的了解。今天的内容是关于机器学习中sklearn库的一些介绍和用法。 相应的,由于网上的一些内容实在是不咋的,所以本人诚挚推荐大家参照sklearn库的官方文档进行学习。但是官方文档中的内容对于没有入门的小白来说理解起来还是有一些难度的。 二、sklearn是什么? 2.1、sklearn简介 skl...

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。 最小二乘法 一般来说,线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=ax+b的直线。 向量化运算,提高运算效率 均方误差 sklearn中的数据集 多元线性回归 sklearn中的线性回归 spar...

机器学习的主要目的是从训练集上学习到数据的真实模型,从而能够在未见过的测试集上面也能够表现良好,我们把这种能力叫做泛化能力。 提到了模型的表达能力,也称之为模型的容量(Capacity)。当模型的表达 能力偏弱时,比如单层线性层,它只能学习到线性模型,无法良好地逼近非线性模型;但模型的表达能力过强时,他就有可能把训练集的噪声模态也学到,导致在测试机上面表现不佳的现象(泛化能力偏弱)。因此针对不同的...

Keras 是一个主要由Python 语言开发的开源神经网络计算库。Keras 库分为前端和后端,其中后端可以基于现有的深度学习框架实现,如Theano,CNTK,TensorFlow,前端接口即Keras抽象过的统一接口API。 那么 Keras 与tf.keras 有什么区别与联系呢?其实Keras 可以理解为一套搭建与训练神经网络的高层API 协议,Keras 本身已经实现了此协议,可以方便...

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。 sigmoid函数 通过sigmoid函数,可以将任何实数值转换为区间为【0,1】之间值相应的值就符合了概率对应的值域 逻辑回归损失函数:表征模型预测值与真实值的不一致程度。 损失函数为什么选择用交叉验证。...