概率密度函数的求解

数据挖掘

  

2019-06-19 14:09:25

应用的场景: 现有10000新员工入职,公司的hr想知道新员工的参训人数的比例,而由于某些原因,不能公开所有新员工的信息,现给出了2500个用户的数据,让你计算下新员工的参训人数的比例。 这里我们使用概率密度函数,来解决这个问题,hr给了个限定标准,作为她可以接受的一个计算结果的预期值: 如果计算的结果的概率,在总体点估计量:概率P的[-0.65, +0.65]区间内,就可以接受这个求得的结果 自...

原博主博客:https://blog.csdn.net/u014593570/article/details/75987793 本章学习数据分类的高级技术 贝叶斯信念网络 书上写的比较笼统,初学者可能会看的倒懂不懂的。因此,可以看看我在本章列出的参考文章。  1.1摘要  在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立...

爬虫之抓包教程

数据挖掘

  

2019-07-09 18:47:51

在初学的爬虫过程中,很多人还不知道如何抓包,怎样子抓包才能获取到所需要的信息。为了纪念【宏彦获水】成语初次面世,特地用【百度搜索】写下一篇作者常用工具的抓包教程,以供大家参考。 抓包过程中,一般是 get 的抓包和 post 抓包,其中 get 抓包分为:普通get、带参数get、json抓包,其中 json抓包是重中之重。而post一般是登陆所用,当然也有可能是传参,这里只讲登陆的post,传参...

一、中文分词基础 分词是文本相似度的基础,在数据挖掘中有着重要的地位,在机器翻译,人工智能等诸多领域都会涉及到分词。不同于英文分词,中文没有空格,所以在进行自然语言处理处理前,需要先进行中文分词。中文分词,输入的是一连串的汉字,输出的是分界符。例如:当输入的字符串是“有意见分歧”这几个字时,如果按照“有/意见/分歧”来切分,可以采取如下2种方式表示切...

1.贝叶斯分类 是根据返回的概率大小决定回归对象的一种分类。 常用于新闻推送, 比如读者的行为1(阅读)和0(跳过),依次进行之后的推送。 2.朴素贝叶斯重点内容 理论上我们应该用第三个公式:即联合概率分布,但实际中我们采用的是最后一个边缘概率乘积的方式。 最后一个公式,描述的是独立的an,在w1的情况下,乘积的概率。 argmax函数:取序列中的最大数的索引。比如: 3.什么是条件独立(当G必定...

导入数据 查看数据 Age Attrition BusinessTravel Department DistanceFromHome Education EducationField EmployeeNumber EnvironmentSatisfaction Gender ... RelationshipSatisfaction StandardHours StockOptionLevel To...

聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。 与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。 聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将它们划分为若干组,划分的原则是组内距离最小化,而组间距离最大化。 常用聚类分析算法 算法名称 算法描述 K-Means K-均值聚类也叫快速聚类法...

数据及算法验证说明 短信数据 带标签数据(用于模型训练和测试) 标签域:1表示垃圾短信/0表示正常短信 文本域:短信源文本(进行了一些处理) – 不带标签数据(用于线上模拟) 带标签数据集分割 随机分割,5-fold cross validation 算法验证 精度:Precision/Recall/F1 速度:线上预测时间 系统与展示 GitHub地址:https://github....

数据的类型(Attribute type) 1.Contiue 人的体重身高 2.Discrete 离散型数据,人的个数 3.Ordinal 等级制:ABC 4.Nominal 平行类:红黄蓝 5.String 文本型 注: 比较特殊的是Nominal的数据,因为如果单纯的设为0,1,2,无形之间拉大了第一个和第三个类型数据的距离。 所以,对Nominal数据的处理方法,若数据量较少,可设为: 采...

函数编程 函数编程主要是解决 python 语言效率低下的问题,尤其是python的循环。常见的函数有 map,reduce,filter 分析工具介绍 (1).numpy python 本身没有数组的功能,list 只是列表,首先,效率低下。numpy 提供了真正的数组功能,以及对数据进行快速处理的函数。值得提出的是,其内置函数处理数据的速度是 c 语言级别的。 (2).scipy numpy ...

基本统计函数 (1) sum 功能:计算数据样本的总和 使用格式: D.sum() 样本D 可为 Dataframe 或者 Series (2)mean 功能:计算平均数 使用格式:D.mean() 样本D 可为Dataframe 或者 Series (3)var 功能:计算数据样本的方差 使用格式:D.var() 样本D 可为Dataframe 或者 Series (4)std 功能:计算数据样...

一、anaconda环境配置 创建虚拟环境(建议python3.5版本) 安装指定版本的TensorFlow(建议1.10.0版本) 首先在Anaconda的库中查找所有的相关的repository。 根据自己的环境选择安装对应的版本,查看repository中的信息,anaconda会返回供安装的版本号以及安装方法 根据返回的内容进行安装 二、安装并启动bert-serving-server 使...