一直不明白这个点:样本的mean 95次会落在以population mean的范围内 是怎么推导出来 取一个样本,以样本均值为中心的范围内,95%的概率会包括真正的population mean?
Data Scientist统计学-置信区间
很多讲置信区间不是泛泛而谈,就是基本概念有错误,借此机会说说我对它的理解。
置信区间和假设检验无论是面试还是现实应用都很广泛。它也是理解很多algorithm参数的基础。
统计推断,我们在推断什么?统计推断的目的其实很简单,如果想知道整体(population)的特性,可以通过随机抽样(sample)来进行估计。但这种估计是有误差的,所以我们估计的是一个区间(CI: confidence interval),而不是某个具体的值。
很多人一想到置信区间,脑海中立刻会浮现正态分布曲线。但是到底是谁符合正态分布?是population吗?还是样本?其实都不是,如果我们无限次抽取样本,然后计算每个样本的mean,无数个sample mean符合以真正的population mean为中心的正态分布曲线。想象一下,我扔10次硬币,计算正面朝上的概率,有可能6次正面,也有可能5次,7次,10次,但如果无限重复这个过程,50%正面50%反面的情况是最常见的,而极限值是很难发生的。
sample mean符合正态分布,但是正态分布的形状是瘦长还是矮胖取决于population的standard deviation。永远记住population与sample的区别,population是fix number是既定数值是真理,而样本是有误差的。很多时候,我们并不知道population sd,需要用sample sd来代替,这种情况下,sample mean就不再符合正态分布,而是student t分布。
以95%置信区间为例,无论正态分布还是t分布,我们100次重复取样,样本的mean 95次就会落在以population mean为中心的±一定范围内。同样道理,如果我随机取一个样本,然后以样本的均值为中心±这段范围,95%的概率这个区间会包含真正的population mean。
这也是解释置信区间的confusion所在。我们抽取样本计算某一地区房价的置信区间为95万到105万,很多人把它理解成population mean在95到105万之间,这是不准确的,population是固定数值,所以正确的解释应该是我们95%确定95万到105万包含真正的population mean。
Data Scientist统计学置信区间辅导可以加考而思老师进行一对一咨询。
根据中心极限定理,如果样本足够大,无数次随机抽样的均值会符合正态分布。符合正态分布意味着你随机取一个数值,95%的概率这个数值会落在正态分布的均值±1.96*std的范围内。