KNN算法笔记及python演示

标签: 练习  算法

KNN算法又称K近邻算法,属于监督学习
其中心思想是找到未分类样本附近K个最相近的已分类样本,该样本的分类由附近已分类的样本投票决定。
在这里插入图片描述
可通过欧氏距离、曼哈顿距离等计算测试样本与已分类样本之间的距离

K值的选择会直接影响归类效果。
在这里插入图片描述
在这里插入图片描述
k太小,分类结果易受噪声点影响;
k太大,近邻中又可能包含太多的其它类别的点。(对距离加权,可以降低k值设定的影响)k值通常是采用交叉检验来确定(以k=1为基准)
经验规则:k一般低于训练样本数的平方根。

算法步骤
1.选择距离公式。
2.计算为分类样本点与其他所有已分类样本之间的距离。
3.针对计算出的距离进行升序排序。
4.选择前K各个距离最短的点。
5.前K个距离最短的点中,未分类的样本点所属分类,由附近已分类的样本投票决定。

缺陷与改进
缺陷一:计算为分类点与所有已分类的点距离,再进行排序,导致计算量大。
改进:使用K-d树数据结构,优化搜索操作,减少计算量。
在这里插入图片描述
缺陷二:样本不平衡问题会影响分类结果。
改进:采用权值的方法(距离的倒数)
在这里插入图片描述

K-d树数据结构
对数据点在k维空间划分的一种数据结构
中心思想:K-d树是一种空间划分树,把整个空间划分为特定的几个部分,然后在特定空间的部分内进行相关搜索操作。

K-d树构建
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

代码演示

import pandas as pd
import numpy as np
df = pd.read_csv("fruit.txt",sep="	")
df.head()

在这里插入图片描述

label = np.array(df['fruit_label'])
# train = pd.concat([df['mass'],df['width'],
#                    df['height'],df['color_score']],axis=1)
train = df[['mass','width','height','color_score']]

在这里插入图片描述

train = np.array(train)
train

在这里插入图片描述
将特征数据标准化并准备好的数据放入train中储存

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
train = scaler.fit_transform(train)

在这里插入图片描述

#分个数据集
#特征train:x_train,x_test
#类别label:y_train,y_test
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import  train_test_split
#train_size:用作训练的数据占总数80%,测试数据20%
x_train,x_test,y_train,y_test = train_test_split(train,label,train_size=0.8,
                                              random_state=1)
#n_neighbors设置K值
knn = KNeighborsClassifier(n_neighbors=5)
#放入训练数据的特征和类别
knn.fit(x_train,y_train)

除了n_neighbors这个参数,还有其他参数可以选择
重点强调下weights(权重)这个参数
weights可以等于
uniform :统一权重,在每一个邻居区域里的点的权重都是一样的。
distance:权重点等于他们距离的倒数。使用此函数,更近的邻居对于所预测的点的影响更大。
callable:用户自定义的方法,此方法接收一个距离的数组,返回一个相同形状并且包含权重的数组

from sklearn import *
#储存预测数据
y_pred = knn.predict(x_test)
print(metrics.accuracy_score(y_test,y_pred))

尝试修改K值可影响准确度。

版权声明:本文为liu_ziyue原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/liu_ziyue/article/details/104617355

智能推荐

SpringBoot 使用freemarker 处理文档,找不到文件位置(报错:basePackagePath=““ /* relatively to resourceLoaderClass pkg)

在Spring Boot中加载word的文档的时候,加载ftl文档的位置应该是从 target目录下面去加载的(不太确定),不是像大多数情况这样根据类的路径去加载。SpringBoot加载的位置应该是从 “resources”文件下面开始,如果放到“resources”的根目录下面需要加一道“/”斜线。 类似于: config...

剑指offer 合并两个排序的链表

题目 链接:https://leetcode-cn.com/problems/he-bing-liang-ge-pai-xu-de-lian-biao-lcof/ 思路 我想的是,与合并两个有序数组一样的思维,新建一个链表,然后判断谁的值大,进而在新的链表上面进行插入。 看书思路 合并链表是一个递归问题:合并一个节点后可以转化为一个子问题。终止条件是其中一个链表为空 代码 链表反转也可以用递归解决...

Java编程思想 第三章:操作符

Java中的操作符和c/c++中的操作符基本一致,因为我之前学习过C语言和C++,所以本章的内容大部分都已熟知,下面只做简单的介绍。 Java操作符及优先级 Java中的操作符包括算术操作符,关系操作符,逻辑操作符,位运算符、自操作运算符、移位运算符、赋值运算符和其他运算符。 算术操作符:包括加减乘除和取余(%),优先级乘除取余高于加减,都是双元运算符,其中加法(+)可以用来连接两个字符串,比如:...

JetBrains 系列开发工具,如何配置 `SCSS` `File Watcher` ,相关输出配置参数详解:webStorm phpStorm IDEA

JetBrains 系列开发工具,如何配置 SCSS File Watcher ,相关输出配置参数详解:webStorm phpStorm IDEA 前言 你目前已经了解了如何使用 SCSS 进行开发,了解了该文章的内容:『 SCSS 日常用法 』 在 JetBrains 系列开发工具中通过 FileWatcher 进行编译的 SCSS 文件都是通过 sass 这个程序进行的。『 如何添加 Fil...

C语言小函数—二进制与十六进制

测试如下 “` int main() { long int num = 15; } “`...

猜你喜欢

仿微博或微信的文章多图显示(自定义MultiImageView)

按照一般的规矩,先上张图来供大伙看看 如果大致是大伙们需要实现的功能,不烦一观 自定义MultiImageView 工具类 具体使用 app.gradle中添加依赖 implementation 'com.github.bumptech.glide:glide:4.8.0' AndroidManifest.xml中配置联网权限 <uses-permission android:name=&q...

经典进程同步和互斥问题

经典进程同步与互斥问题 前言 一、生产者-消费者问题 1.问题描述 2.问题分析 3.代码 二、读者-写者问题 1.问题描述&&分析 2.代码 三、哲学家进餐问题 1.问题描述&&分析 2.代码 四、理发师问题 1.问题描述&&分析 2.代码 前言 在多道程序设计环境中,进程同步是一个非常重要的问题,下面讨论几个经典的进程同步问题。 一、生产者-消费...

java设计模式——ThreadLocal线程单例

1、定义一个ThreadLocal线程单例,代码如下: 2、定义一个多线程类,代码如下: 3、定义一个测试类,代码如下: 4、输出结果,如下图:...

【tensorflow】线性模型实战

线性模型:y = 1.477 * x + 0.089   1. 采样数据 采样噪声eps在均值0,方差0.01的高斯分布中,而后在均匀分布U(0,1)中,区间[-10,10]进行n=100次随机采样:   2. 计算误差 循环计算每个点的预测值与真是值之间差的平方并累加,从而获得训练集上的均芳误差损失值。   3. 计算梯度   4. 梯度更新 对权重w和偏...

常见损失函数和评价指标总结(附公式&代码)

网上看到一篇很实用的帖子关于常见损失函数和评价指标,收藏下来 本文转载于https://zhuanlan.zhihu.com/p/91511706 ------------------------------------------------------------------------------------------------------------------------------...