置信区间:
Find an interval such that “reasonbly confident” that were is a 95% chance that the true μ(=P=μx¯)
sampling distribution of the sample mean
μ :mean of the”sampling distribution of the sample mean”
σx¯ : variance of the “sampling distribution of the sample mean”
一般是有这个“sample mean”的distribution后,
就有了与标准正太分布做比较的依据。
z-score就是一种尺度,z-score=x−μσx¯,
通过z表对应值即可找出置信区间。
例如,常说的,有95%的可能,population的均值出现在μ±2σx¯中,
也就是z-score=2.0时,查标准正态分布表,值为0.9772,
于是置信区间为2*(0.9772-0.5)=0.9544,常约等于0.95
而μ与σx¯,则是通过做调查的样本估计得到的。
例如,某一地区投票选举,候选人为张三,李四。为了估计整个地区对二者的支持率为多少,我们随机抽取100人做调查,发现57人支持张三,43人支持李四。
为了让事件能够进行数学计算,我们把“支持张三”当做1,把“支持李四”当做0。
于是我们从这份样本中计算出均值x¯=1∗57+0∗43100=0.43,方差s2=57∗(1−0.43)2+43∗(0−0.43)2100−1=0.2475 s=0.5,因此,我们就用计算出来的s作为总体variance的估计,σ=s(约等于)
为什么用100-1
用100去除的话,得到的是biased estimate of population variance,就是有偏差的估计,经过大量模拟可以得出用n-1作为除数是偏差最小的估计,而如果用n-2的话,则估计值会偏大。或者用严谨的数学公式也能证明
于是,我们就能由我们选取的一个样本计算出的值来估计samping distribution of sample mean中的值,
μx¯=x¯
σx¯=σn−−√
当然,这样的估计是有偏差的,而margin error=2σx¯,即选取的样本越大,就是n越大,margin error越小。
我们可以得出μx¯=x¯=0.43σx¯=σn√=0.05marginerror=0.1
于是,最后我们得出结论,我们有95%的把握,该地区的所有人对张三的支持率为33%~53%(μx¯±2σx¯)之间,而margin error为10%