偏倚:样本不能代表目标总体,说明该样本存在偏倚
简单随机抽样: 随机抽取单位形成样本。
分成抽样: 总体分成几组或者几层,对每一层执行简单随机抽样
系统抽样: 选取一个参数K,每到第K个抽样单位,抽样一次。
二、预测总体(点估计预测,区间估计预测)点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。场景1: 样本无偏的情况下,已知样本,预测总体的均值,方差。
(1) 样本的均值 = 总体的估算均值(总体均值的点估计量) ≈ 总体实际均值(误差是否可接受)
(2)总体方差 估计总体方差
场景2: 已知总体,研究抽取样本的概率分布
比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。
举个栗子: 已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。
样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。
中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则的分布近似正态分布。
区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。举个栗子: 今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术?
如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)求置信区间简便公式(直接上皂片)关于C值参数: 置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58
待补充知识一(t分布)我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。 若样本量不够大呢? 这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。
待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。卡方分布的定义
若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
卡方分布的应用场景
用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;
用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:
三、验证结果(假设检验)假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。
两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误第一类错误: 拒绝了一个正确的假设,错杀了一个好人
第二类错误: 接收了一个错误的假设,放过了一个坏人
第三部分小节1. 无偏抽样
2. 点估计量预测(已知样本预测总体,已知总体预测样本)
3. 区间估计量预测(求置信区间)
4. 假设检验
-----------------------------------------------------------------------------------------------------------------------------------
第四部分: 相关与回归(y=ax+b)这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。
散点图:显示出二变量数据的模式
相关性:变量之间的数学关系。
线性相关性:两个变量之间呈现的直线相关关系。
最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小)
误差平方和SSE:
线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b
斜率a公式:
公式:
相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)
上一篇:《臺灣不教的中國近代史》的读后感10篇 下一篇:伊隆戈人的猎头经典读后感10篇
推荐小说: 二号首长 侯卫东官场笔记 官场之风流人生 官道之色戒 脸谱 红色仕途 沧浪之水 驻京办主任 医道官途 重生之风流仕途 风流仕途 官道之权色撩人 官场之财色诱人 官路红颜 官场桃花运 官场风月 官道无疆 一号红人 官商 重生之官路商途 宦海沉浮 重生之官道