四分位数
所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。
Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
迷你距 也叫“四分位距”
迷你距。 它是一组数据中较小四分位数与较大四分位数之差。
即: 迷你距= 上四分位数 - 下四分位数
迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。
全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?
我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。
方差
方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
标准差
标准差为方差的开方。
通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?
标准分---表征了距离均值的标准差的个数
标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。
标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。
第一部分小节1. 描述一批数据,通过集中趋势分析,找出其“代表值” ; 通过分散和变异性的描述,查看这批数据的分散程度。
2. 集中趋势参数: 均值,中位数,众数
3. 分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分
-----------------------------------------------------------------------------------------------------------------------------------
第二部分: 关于“事件”的研究分析 ---概率论一、一个事件的情况为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。
事件 --- 有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。
概率 --- 每一种结果发生的可能性。 所有结果的可能性相加等于1,也就是必然!!!
概率分布 --- 我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。
概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布
期望 --- 表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)
公式:
方差--- 表征了事件不同结果之间的差异或分散程度。
公式:
二、细说分布理想很**,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。
因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。
“离散型”数据和“连续性”数据差异在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?
离散数据: 一个粒儿,一个粒儿的数据就是离散型数据。
连续数据: 一个串儿,一个串儿的数据就是连续型数据。
好啦,开个玩笑!!!别打我,下面分享干货!!!
上一篇:《臺灣不教的中國近代史》的读后感10篇 下一篇:伊隆戈人的猎头经典读后感10篇
推荐小说: 二号首长 侯卫东官场笔记 官场之风流人生 官道之色戒 脸谱 红色仕途 沧浪之水 驻京办主任 医道官途 重生之风流仕途 风流仕途 官道之权色撩人 官场之财色诱人 官路红颜 官场桃花运 官场风月 官道无疆 一号红人 官商 重生之官路商途 宦海沉浮 重生之官道