">
要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!
因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外;因此扎实的统计学基础是一个优秀的数据人必备的技能。
但是,统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识;对于具体的知识点,本文就不一一介绍了,感兴趣的同学请参考《深入浅出统计学》、《统计学:从数据到结论》等等专业书籍。
统计学分为描述性统计学和推断性统计学。
定义:使用特定的数字或图表来体现数据的集中程度和离散程度。
集中趋势集中趋势是指一组数据所趋向的中心数值,用到的指标有:算数均数、几何均数、中位数。
离散趋势是反映数据的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。
例如箱线图就可以很好反映其中部分重点统计值:
抽样方法:
我们在做产品检验的时候,不可能把所有的产品都打开检验一遍看是否合格,我们只能从全部的产品中抽取部分样本进行检验,依据样本的质量估算整体的产品质量,这个就是抽样,抽样的定义是为了检验整体从整体中抽离部分样本进行检测,以样本的检测结果进行整体质量的估算的方法。
抽样有多种方法,针对不同的目的和场景,需要运用不同的方法进行检测,常见的抽样方法有:
1)概率抽样
2)非概率抽样
3)两者抽样方法之间的比较:
4)中心极限定理:
若给定样本量的所有样本来自任意整体,则样本均值的抽样分布近似服从正态分布,且样本量越大,近似性越强。
以30为界限,当样本量大于30的时候符合中心极限定理,样本服从正态分布;当样本量小于30的时候,总体近似正态分布时,此时样本服从t分布。样本的分布形态决定了我们在假设检验中采用什么方法去检验它。
定义:根据样本数据推断总体的数据特征。
产品质检的时候用的几乎都是抽样方法的推断性统计,推断性的过程就是一种假设检验,在做推断性统计的时候我们需要明确几点:
明确后可以对应我们假设检验的几个步骤了:
假设对于某一个器件,国家标准要求:平均值要低于20。
某公司制造出10个器件,相关数值如下:15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。
运用假设检验判断该公司器件是否符合国家标准:
1)设假设:
2)总体为正态分布,方差未知,样本为小样本,因此采用T检验。
3)计算检验统计量:样本平均值17.17,样本标准差2.98,检验统计量为 (17.17-20)/(2.98/√10)=-3.0031
4)当置信度选择97.5%,自由度为9,此时为单尾检验,临界值为2.262。
5)由于-3.0031
Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数>平均数的差异是否显著。
T检验:用于样本含量较小(例如n
F检验:F检验又叫方差齐性检验。在两样本t检验中要用到F检验。检验两个样本的方差是否有显著性差异 这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。
(T检验用来检测数据的准确度,检测系统误差 ;F检验用来检测数据的精密度,检测偶然误差。)
卡方检验:主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。
这个和我们提出的原假设相关,例如我们检测的原假设:器件平均值>=20。
我们需要拒绝的假设就是器件平均值20,则我们需要拒绝的假设就是器件平均值
在统计学中,几乎都是依据样本来推断总体的情况的,但在推断的过程中,我们会遇到各种各样的阻碍和干扰;所以我们推断出的结果不是一个切确的数字,而是在某个合理的区间内,这个范围就是置信区间。
但整体中所有的数据都在这个范围也不现实,我们只需要绝大多数出现在置信区间就可以了,这里的绝大多数就是置信水平的概念,通常情况我们的置信水平是95%。
置信区间[a,b]的计算方法为:(z分数:由置信水平决定,查表得。)
a = 样本均值 – z*标准误差,b = 样本均值 + z*标准误差
志在必得。
不学自知,不问。自晓,古今行事未之有也!
就数据分析而言,我们通过统计学可以用更富有信息驱动力和针对性的方式对数据进行操作;更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。
客服微信:(id1234562011)本文链接:https://www.changchenghao.cn/n/354052.html