单样本t检验:检验单个变量的均值与目标值之间是否存在差异,如果总体均值已知,样本均值与总体均值之间差异显著性检验属于单样本t检验。 金融应用: 原假设为沪深300收益率均值为0,而p值为0.27>0.05(t值为1.1),所以在5%显著性水平下,不能拒绝原假设,推断沪深300的收益率均值为0。 独立样本t检验:用于检验两组服从正态分布的总体均值是否一样,前提是两个样本方差相等。如果两组样本彼...

python数据预处理生成词频统计图、词云 数据来源请看本人博客下简单的数据处理(一) 一、对转换后的结果进行预处理 1、我们需要去除每一句里的不可用字符, 例如"",[email protected]#$%^&*(){}+=-…以及数字[0-9]等这些不可用数据 处理后部分结果: 2、去掉换⾏符以及经过上⼀步处理后为空的数据 处理后的部分结果: 3、按行对处理后的数据通过jieba...

确定目标 本次分析主要是针对某电商平台的真实脱敏数据进行; 尝试数据分析从数据获取到数据分析报告撰写的整个数据分析流程。 数据清洗 将支付金额小于等于0的数据删除; 删除channelId为空的数据; 删除下单时间比支付时间晚的数据; 删除非2016年的数据; 删除prodectId为0的数据。 清洗代码如下: 清洗后的数据预览: 准备分析数据 1、根据提供的数据,查看不同城市的下单量,并获取下单...

读取数据,输出每个有效变量的数据分布图: 输出结果: 在EDA类下定义了简单的数据处理包,但是没有把前两个进行实例化(做了没有成功),有好的方法可以留言交流哈...

数据处理工具Pandas 1. 序列和数据框的构造 1.1 构造序列 1.2 构造数据框 2. Pandas从外部读取数据 2.1 文本文件的读取 2.2 电子表格的读取 2.3 数据库的读取 3. 数据描述统计 Pands模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。Pandas模块的核心操作对象就是序列(Series)和数据框(...

大家好!今天给大家带来一个非常简单、实用的统计方法——因子分析,这个方法适用面非常广,无论商科、工科、理科都能用来研究分析。一起来看看吧! 因子分析目录 第一部分:安装factor_analyzer包 第二部分:导入数据 第三部分:建立因子分析模型 第四部分:计算各个城市得分 获取代码 什么是因子分析?用来做什么? 因子分析法(factor analysis)的核心是对若干...

1、背景 假设某公司生产一件商品,商品的重量是一个随机变量,它服从正态分布。当机器运转正常时,其均值为0.5kg,标准差为0.015。现随机抽查9件商品,重量(单位为kg)分别 0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515,请根据这些数据判断机器运转是否正常? 这个问题我们可以使用参数估计中置信区间的知识来进行求解: 以...

接着上一篇文章,这里对爬取到的数据进行简单的数据分析 开发环境:jupyter 导入依赖的包 数据处理 处理完之后数据 散点图 可以看出大部分口红的价格趋近于500,这样还不是很明显,接下来用饼图来显示 饼图 价格0-200的分布最多,其次是200-400 如果是你你会选择什么价位的口红送人? 销量top10 (因为这里是用评论数代替的销量,所以不够准确) ko no Dior da 云图 以上就...