深入浅出统计学的读后感10篇(3)

  《*浅出统计学》读后感(八):*浅出统计学-书评

前言

  道德经云:”道生一,一生二,二生三,三生万物“。 学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。

  笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标

  目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余

  目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件

  目标三:为读者搭建从“理论”到“实践"的桥梁

  注意: 本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》

概述 你的“对象” 是谁?

  此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。

  一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。

  二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。

  因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。

分析就像在给 “爱人” 画肖像

  从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。

  看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。

  ----------------------------------------------------------------------------------------------------------------------------

第一部分: 对“数据”的描述性分析

  数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:

一、集中趋势量度---为这批数据找到它们的“代表”

  均值(μ)

  公式:

  均值的局限性

  均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ; 例如下面一组数据就不太适合用均值来代表

  这5个人的年龄均值是:31.2岁

  很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???

  中位数

  中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。

  中位数的局限

  回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。

  那么我们在看一下下面一组数据,中位数的表现又如何?

  中位数:45

  这组数据的中位数为:45,但是中位数45并不能代表这组数据。

  因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。

  众数

  众数是样本观测值在频数分布表中频数最多的那一组的组中值。

  平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。

二、 分散性与变异性的量度

  (全距,迷你距,四分位数,标准差,标准分)

  全距=max-min

  全距也叫“极差”极差。 它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。

  全距的局限性

  全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。

上一篇:《臺灣不教的中國近代史》的读后感10篇 下一篇:伊隆戈人的猎头经典读后感10篇

推荐小说:  二号首长  侯卫东官场笔记  官场之风流人生  官道之色戒  脸谱  红色仕途  沧浪之水  驻京办主任  医道官途  重生之风流仕途  风流仕途  官道之权色撩人  官场之财色诱人  官路红颜  官场桃花运  官场风月  官道无疆  一号红人  官商  重生之官路商途  宦海沉浮  重生之官道