1)简单随机抽样--重复和不重复
2)分层抽样
3)整群抽样:总体划分为多个群,群与群之间相似,对群进行简单随机抽样
4)系统抽样:总体分成k组,每组选相同位置的样本
样本比例Ps=X/n,
E(Ps)=p
D(Ps)=pq/n
n>30时,有近似,Ps~N(p, pq/n),连续性修正:±1/(2n)
中心极限定理:如果n很大(n>30)且X不符合正态分布,则:
考虑不确定性的方法
1)选择总体统计量
2)求出其抽样分布
3)决定置信水平
4)求出置信上下限
当样本很小时, 符合t分布
T~t(v) ,v=n-1
为什么用t分布而不是正态分布?
基于小样本估计 可能无法精确反映总体方差的真实值,需要让置信区间变宽以留出误差空间。n很小时,t分布给出的置信区间比正态分布的更宽。(t分布的形状随着v值变化,由于考虑了样本的大小,即使 的估计精度存在各种足以让人觉察的不确定性,t分布也能忽略不计)
1)确定要进行检验的假设
2)选择检验统计量
3)确定用于做决策的拒绝域(显著性水平决定)
显著性水平用α表示,表示你希望在观察结果的不可能程度达到多大程度时拒绝H0。(小概率事件发生时拒绝 H0,你认为概率多小为小概率事件)
4)求出检验统计量的p值
p值是取得样本中的各种结果或取得拒绝域方向上的更极端的结果的概率。
5)查看样本结果是否位于拒绝域内
6)做出决策
一、第一类错误:原假设为真,错误的拒绝;
发生第一类错误的概率等于结果位于拒绝域的概率,=α
二、第二类错误:原假设为假,错误的接受。
发生第二类错误的概率=β,计算更复杂
计算步骤:
在H0为假的情况下拒绝H0的概率=1-β
1)检验拟合优度,检验一组给定的数据与指定的分布的吻合程度。
2)检验两个变量的独立性。
O为观察频数,E为期望频数。
当v=1或2,图形类似1/x
当v>2时,图形先增后减;当v很大时,图形接近正态分布。
v=组数-限制数
1)确定要进行检验的假设以及备择假设
原假设:**符合某分布
2)求出期望频数和自由度
3)确定用于做决策的拒绝域
根据v和α确定拒绝域
4)计算检验统计量
5)查看检验统计量是否位于拒绝域以内
6)做出决策
其中期望频数=行合计*列合计/总和
v=(h-1)*(k-1), h为行,k为列
y=a+bx
公式1:
为x的样本标准差, 为y的样本标准差。
公式2: