基础知识准备 使用字典进行词频统计 使用集合求交集并集 因为集合中的值是不可以重复的,所以可以查看两个句子的词语相似性 使用装饰器简化步骤 装饰器的实质是在对某个函数的功能进行辅助添加。添加装饰器时,需要将主函数在装饰器的调用并返回, 装饰器函数需要返回调用主函数的方法 使用映射函数——map 使用映射函数map(),可以迭代进行函数的参数设定,避免代码过多。map之后产生...

零、写在前面 参考资料: 《机器学习》周志华 《机器学习实战》Peter Harrington 斯坦福 CS 229 吴恩达 漫谈 Clustering (1): k-means 一、算法原理 k-Means是一种十分简单的算法,一张图就可以解释清楚。 算法流程(上图k=2): 二、收敛性 考虑平方误差: E=∑ik∑x∈ci||x−μi||22其中&m...

K-means 算法原理

K-means  无监督学习  聚类

  

2019-11-18 08:44:33

1. 聚类 K-means算法是一种常用的聚类算法,所谓的聚类就是指给定NNN个样本的数据集,需要构造 kkk 个簇(类),使得这 kkk 个簇之间的关系最小。 2. K-means算法基本步骤 随机初始化kkk个点,作为聚类中心 在第iii次迭代中,对于每个样本点,选取距离最近的聚类中心,归为该类 遍历一遍之后,更新聚类中心,其中更新规则为:聚类中心取当前类的平均值 重复步骤2、3,直到满足迭代...

【火炉炼AI】机器学习020-使用K-means算法对数据进行聚类分析 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 前面的机器学习类文章(编号从010-019)都是关于监督学习,但是从本篇文章开始,炼丹老顽童要开始讲解无监督学习方面,无监督学习是指处理的数据没有任何形式的标记,我们没...

【火炉炼AI】机器学习023-使用层次聚类算法构建模型 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 聚类的算法有很多种,前面我们讲解了k-means算法和均值漂移算法,此处我们继续讲解层次聚类算法。 k-means是一种分散性聚类算法,以空间中K个点为中心进行聚类,将最靠近他们的样本...

无监督学习是一种对不含标记的数据建立模型的机器学习范式。 无监督学习应用领域: - 数据挖掘 - 医学影像 - 股票市场分析 - 计算机视觉 - 市场分析 最常见的无监督学习就是聚类。 聚类的定义:聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小 聚类的基本思想: 给定一个有N个对象的数据集,划分聚类技术将构 造数据的k个划...

文章目录 1. 降维 2. PCA 2.1 最大化方差和最小化损失 2.2 坐标轴旋转 3. PCA 推导 3.1 PCA 算法推导 3.2 维数选择 4. Sklearn 实现 4.1 主成分可视化 参考文献 相关文章: 机器学习 | 目录 1. 降维 假设你在使用一组数据来预测房价,你的数据包含以下特征: 房子面积 房间数量 附近学校排名 社区安全 但是可以看出,1、2 在于描述房子的大小,而...

编程实现k均值算法,设置三组不同的k值、三组不同初始中心点,在西瓜数据集4.0上进行实验比较,并讨论什么样的初始中心有助于得到好结果。 1.运行结果:(注:图中方块标注的点为随机选取的初始样本点) k=2时: 本次选取的2个初始向量为[[0.243, 0.267], [0.719, 0.103]] 共进行61轮 共耗时0.10s k=3时: 本次选取的3个初始向量为[[0.343, 0.099],...

机器学习之K-Means聚类模型 1、K-Means介绍 2、K-Means数学原理 3、算法及Python实现 4、小结 1、K-Means介绍 聚类是一种无监督学习,它将相似的对象归到同一个簇中。K-均值聚类算法可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。下图为一个k=4的K-Means算法聚类的结果。 2、K-Means数学原理 寻找最近重心 对每个点,找到重心j使得 ...

定义 SVM便是根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。仔细观察彩图中的蓝线,会发现决定其位置的样本并不是所有训练数据,而是其中的两个空间间隔最小的两个不同类别的数据点,而我们把这种可以用来真正帮助决策最优线性分类模型的数据点称为”支持向量“. (即支持向量就是离分隔超平面最近的那些点)。换句话说,找出能分离样本的一个最优平面距离超平面最近的训练样本的点被...

目录: 1. 半监督学习(Semi-supervised Learning SSL) 2. 完全图 3. 标签传播算法的基本思路 4. 标签传播算法 5. 算法描述 6. 标签传播算法的基本特点 7. 代码实现 1. 半监督学习(Semi-supervised Learning SSL) 半监督学习是一种有监督学习和无监督学习想结合的一种方法,其主要思想是基于数据分布上的模型假设,利用少量的已标注...

原文链接:https://www.jiqizhixin.com/articles/2019-03-07-10 Kipf和Welling最近发表的一篇论文提出,使用谱传播规则(spectral propagation)快速近似spectral Graph Convolution。 和之前讨论的求和规则和平均规则相比,谱传播规则的不同之处在于聚合函数。它使用提升到负幂的度矩阵D对聚合进行归一化这一点与...

k-means是一个十分简单的聚类算法,它的思路非常简明清晰,所以经常拿来当做教学。下面就来讲述一下这个模型的细节操作。 内容 模型原理 模型收敛过程 模型聚类个数 模型局限 1. 模型原理 将某一些数据分为不同的类别,在相同的类别中数据之间的距离应该都很近,也就是说离得越近的数据应该越相似,再进一步说明,数据之间的相似度与它们之间的欧式距离成反比。这就是k-means模型的假设。 有了这个假设,...

在这里主要讲一下用于半监督学习的ladder network。网上别人分享的资料太少了,也不知道对不对,下面内容请带着怀疑的角度阅读,如有问题,欢迎指出。 在讲半监督学习之前,先简单聊聊监督学习。 在监督学习中,我们将原始数据通过简单的预处理(标准化等等),然后输入网络,神经网络自己从数据中学习,中间隐藏层就相当于一个个特征提取器。 如下图,第一个隐藏层可能会提取一些线条等简单的特征,第二层提取一...