Data Scientist统计学置信区间辅导

一直不明白这个点：样本的mean 95次会落在以population mean的范围内是怎么推导出来取一个样本，以样本均值为中心的范围内，95%的概率会包括真正的population mean？

最佳答案

课程顾问-小管家 2023-04-23 12:35:56
立即咨询

　　Data Scientist统计学-置信区间
　　很多讲置信区间不是泛泛而谈，就是基本概念有错误，借此机会说说我对它的理解。
　　置信区间和假设检验无论是面试还是现实应用都很广泛。它也是理解很多algorithm参数的基础。
　　统计推断，我们在推断什么?统计推断的目的其实很简单，如果想知道整体(population)的特性，可以通过随机抽样(sample)来进行估计。但这种估计是有误差的，所以我们估计的是一个区间(CI: confidence interval)，而不是某个具体的值。
　　很多人一想到置信区间，脑海中立刻会浮现正态分布曲线。但是到底是谁符合正态分布?是population吗?还是样本?其实都不是，如果我们无限次抽取样本，然后计算每个样本的mean，无数个sample mean符合以真正的population mean为中心的正态分布曲线。想象一下，我扔10次硬币，计算正面朝上的概率，有可能6次正面，也有可能5次，7次，10次，但如果无限重复这个过程，50%正面50%反面的情况是最常见的，而极限值是很难发生的。
　　sample mean符合正态分布，但是正态分布的形状是瘦长还是矮胖取决于population的standard deviation。永远记住population与sample的区别，population是fix number是既定数值是真理，而样本是有误差的。很多时候，我们并不知道population sd，需要用sample sd来代替，这种情况下，sample mean就不再符合正态分布，而是student t分布。
　　以95%置信区间为例，无论正态分布还是t分布，我们100次重复取样，样本的mean 95次就会落在以population mean为中心的±一定范围内。同样道理，如果我随机取一个样本，然后以样本的均值为中心±这段范围，95%的概率这个区间会包含真正的population mean。
　　这也是解释置信区间的confusion所在。我们抽取样本计算某一地区房价的置信区间为95万到105万，很多人把它理解成population mean在95到105万之间，这是不准确的，population是固定数值，所以正确的解释应该是我们95%确定95万到105万包含真正的population mean。
Data Scientist统计学置信区间辅导可以加考而思老师进行一对一咨询。