实验:区间估计实验(统计学实验) 一、 实验要求 输入17-20个样本,即样本容量在17-20之间,样本数为n并确定具体数值,输入对应数量的样本值,并由此计算0.95的置信区间,输入两组数据并验证。 二、实验代码 三、实验验证...

统计学第三周

统计学

  

2019-11-18 08:57:22

本期学习内容: 1、Python环境安装; 2、pandas和numpy环境安装; 3、Python实现描述性统计的内容。 一般win安装,python环境,推荐安装Anaconda3。一个原因是Python 2X 和Python 3X使用上有一些区别,Python 3X在设计的时候没有考虑向下相容,而且Anaconda3安装时一些基础常用的包例如pandas和numpy不用手动配置,比较方便。 ...

学习内容:Python实现抽样分布 (正态分布、卡方分布、T分布) 取泰坦尼克号的数据,利用python进行抽样分布描述,主要是提供实现代码,具体的理论知识不会过多涉及。(注:是否服从T分布不是进行t检验~) 字段说明: Age:年龄,指登船者的年龄。 Fare:价格,指船票价格。 Embark:登船的港口。 需要验证的是: 1、验证数据是否服从正态分布? 2、验证数据是否服从T分布? 3、验证数...

统计学:参数估计 概念 1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。 2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。 当围绕点估计值构造总体参数的一个区间,这就是区间估计。 3.区间估计:int...

参数估计(python实现)

统计学

  

2019-12-30 04:06:06

求置信区间 抽取样本, 样本量为200 计算样本中喝咖啡的均值 重复抽取样本,计算其他样本中喝咖啡的均值,得到抽样分布 抽样分布 计算抽样分布的置信区间以估计总体均值, 置信度95% 输出:...

1. t检验的历史   阿瑟·健力士公司(Arthur Guinness Son Co.)是一家由阿瑟·健力士(Arthur Guinness)于1759年在爱尔兰都柏林建立的一家酿酒公司:   不过它最出名的却不是啤酒,而是《吉尼斯世界纪录大全》:   1951年11月10日,健力士酒厂的董事休·...

维度压缩

统计学

  

2020-03-11 07:01:54

当特征选择完成之后,就可以直接训练模型了,但是可能由于特征矩阵过大导致计算量大,训练时间长的问题;因此,降低特征矩阵维度,也是必不可少的,主成分分析就是最常用的降维方法,在减少数据集的维度的同时,保持对方差贡献最大的特征,在sklearn中,我们使用PCA类进行主成分分析。 主成分分析(Principal Components Analysis) PCA API 有一个参数用于设置主成分的个数:p...

特征选择

统计学

  

2020-03-11 07:11:21

什么特征选择 特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下...

  正式开始前,请确保你已经完全清晰地理解了假设检验、Z分数、Z检验和置信区间的基本概念,若还有疑虑,这篇文章也许能帮到你,当然直接开始其实也没问题。 统计学(三):置信区间; Z 检验(样本平均数的假设检验), 均值分布, 附Python实现(大牌护肤品碧欧泉背后的秘密) 文章目录 Python 逐步实现Z检验 自定义 Z 检验函数 自定义置信区间函数 源代码呈现 延伸阅读 ...

采样-Gibbs采样

统计学

  

2020-03-31 17:56:42

MCMC蒙特卡洛马尔科夫链采样,非常重要的采样算法,而Gibbs算法也是MCMC种的一种,主要用于高维分布的采样。介绍MCMC的书籍有很多,https://victorfang.wordpress.com/2014/04/29/mcmc-the-gibbs-sampler-simple-example-w-matlab-code/这是有关Gibbs采样matlab的一个实现,里面也介绍了gibbs...

背景: 03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量~ps:传统汽车的销量会受到新能源汽车的影响。 因此最佳模型为arma70...

本篇文章只要是通过例子实践来简单了解含有趋势成分的时间序列的预测方法。 时间序列的趋势可以分为线性趋势和非线性趋势两大类,倘若这种趋势能够延续到未来,就可以利用趋势进行外推预测。 有趋势序列的预测方法主要有线性趋势预测、非线性趋势预测和自回归模型预测等。但本篇主要介绍线性趋势和非线性趋势的预测方法。 线性趋势:是指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律。 指数曲线:用于描述以几何级...