Toggle Menu

Data Scientist统计学置信区间辅导

一直不明白这个点:样本的mean 95次会落在以population mean的范围内 是怎么推导出来 取一个样本,以样本均值为中心的范围内,95%的概率会包括真正的population mean?

最佳答案
  • 课程顾问-小管家
    课程顾问-小管家 2023-04-23 12:35:56
    立即咨询

      Data Scientist统计学-置信区间

      很多讲置信区间不是泛泛而谈,就是基本概念有错误,借此机会说说我对它的理解。

      置信区间和假设检验无论是面试还是现实应用都很广泛。它也是理解很多algorithm参数的基础。

      统计推断,我们在推断什么?统计推断的目的其实很简单,如果想知道整体(population)的特性,可以通过随机抽样(sample)来进行估计。但这种估计是有误差的,所以我们估计的是一个区间(CI: confidence interval),而不是某个具体的值。

    Data Scientist统计学置信区间辅导

      很多人一想到置信区间,脑海中立刻会浮现正态分布曲线。但是到底是谁符合正态分布?是population吗?还是样本?其实都不是,如果我们无限次抽取样本,然后计算每个样本的mean,无数个sample mean符合以真正的population mean为中心的正态分布曲线。想象一下,我扔10次硬币,计算正面朝上的概率,有可能6次正面,也有可能5次,7次,10次,但如果无限重复这个过程,50%正面50%反面的情况是最常见的,而极限值是很难发生的。

      sample mean符合正态分布,但是正态分布的形状是瘦长还是矮胖取决于population的standard deviation。永远记住population与sample的区别,population是fix number是既定数值是真理,而样本是有误差的。很多时候,我们并不知道population sd,需要用sample sd来代替,这种情况下,sample mean就不再符合正态分布,而是student t分布。

      以95%置信区间为例,无论正态分布还是t分布,我们100次重复取样,样本的mean 95次就会落在以population mean为中心的±一定范围内。同样道理,如果我随机取一个样本,然后以样本的均值为中心±这段范围,95%的概率这个区间会包含真正的population mean。

      这也是解释置信区间的confusion所在。我们抽取样本计算某一地区房价的置信区间为95万到105万,很多人把它理解成population mean在95到105万之间,这是不准确的,population是固定数值,所以正确的解释应该是我们95%确定95万到105万包含真正的population mean。

          Data Scientist统计学置信区间辅导可以加考而思老师进行一对一咨询。

其他答案
  • 匿名
    匿名 2021-03-05
    立即咨询

    根据中心极限定理,如果样本足够大,无数次随机抽样的均值会符合正态分布。符合正态分布意味着你随机取一个数值,95%的概率这个数值会落在正态分布的均值±1.96*std的范围内。

16年深耕全阶段留学辅导   数十万留学生信赖

添加微信:「 kaoersi03 」备注官网申请试听,享专属套餐优惠!

解决学业难题!1v1线上辅导——

复制成功

微信号: kaoersi03

备注“官网”享专属套餐优惠!