数据分析统计学必知 —— 描述性统计之基本的统计量

如题所述

第1个回答 2022-07-22

统计学是数据分析的基石，也是数据分析师的根本。学了统计学，你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果，但是这往往是粗糙的，不准确的。如果学了统计学，那么我们就能以更多更科学的角度看待数据。用统计学作为数据分析的支撑和方向，使得分析结果更加有底气。本文主要分享描述性统计理论结合对应的python实现方式，更好的帮助大家将统计学应用到实际工作中。

描述性统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行评估和描述的方法。

缺点：极易受异常值的影响
解决：结尾均值或者取中位数

①加权平均：给平台用户打分（近三个月的消费频次R，消费间隔F、消费金额M）

这时我们要和业务沟通，可以依据业务经验给这三个维度一个权重值，注意权重总和为1
假如现在的权重值是【0.2,0.3.0.5】

将用户ID 为 1 用户的F值提升了1倍，总的评分才上升了3，这样的结果明显不够准确，这是大家很容易忽略的一点，造成这个问题的原因是因为量纲不一致，RF和M的值相差过大。可以通过对原始数据进行标准化和归一化解决。

通过标准化数据会发现，ID是1 的用户排名变成了第二，虽然消费金额不高，但是消费频次是最高的，所以对应评分是高的。标准化和归一化主要的目的，是帮助我们解决量纲不一致的问题，加权平均之前要解决量纲不一致问题，而加权平均应用场景是打分，用来做精准营销和广告投放等。

②均值使用的误区
第一天，有10 个用户，共充值了50块钱，人均充值了5块钱
第二天，有15个用户，共充值了90块钱，人均充值了6块钱
第三天，有8个用户，总共充值了64块钱，人均充值了8块钱
问这三天的日平均消费金额是多少？

将数据从小到大排序，取中间的数（偶数：中间两个数的平均值）

中位数代表一个样本，种群和概率分布中的一个数值，将其划分为上下相等两部分，中位数和均值越接近，说明异常值较少。

出现次数最多的数（占比例最大，适用于非数值型数据）

解决数据如何散布再从最小值到最大值的区间上的信息，第p个百分位数，表示至少有p%的观测值小于或者等于该值，且至少有（100-p）%的观测值大于或者等于该值

解释：至少有51%的观测值小于或等于5030，至少有49%的观测值大于5030
四分位数：第一四分位数Q1,第二四分位数Q2,第三四分位数 Q3
Q1 = 25%百分位数
Q2 = 50%百分位数 = 中位数
Q3 = 75%百分位数

标准差是一组数值自平均值分散开来的程度的一种测量概念。一个较大的标准差，代表大部分的数值和平均值差距较大；一个较小的标准差，代表这些数值和平均值接近。

结论：标准差越小，代表发挥越稳定，选A。

极差 = 最大值 - 最小值 , 极易受到异常值的影响

偏度是统计数据分布偏斜方向和程度的度量，是统计数据分布的非对称程度的数字特征。

峰度是指次数分布曲线顶峰的尖顶程度，是次数分布的又一重要特征，通常以正态
分布为标准。

结果说明：峰度和偏度接近于0，说明数据是服从正态分布的对称分布曲线。

最小值、第一分位数、正位数、第三四分位数、最大值

所有的数据中，至少有8/9（或88.9%）的数据位于平均数3个标准差范围内。
所有的数据中，至少有24/25（或96%）的数据位于平均数5个标准差范围内。

第四步：计算相关系数

结果说明：极强相关怎么理解？最终计算出的结果是一个概率值，本案例中可以理解为影响成绩的因素 92% 是和学习时长有关。

相关：是两个或两个以上变量之间互相影响的的程度，核心是互为相关，同时存在没有先后顺序。
因果：前一个事件对后一个事件的作用和强度，核心点是有先后顺序的。
相关关系和因果关系的判断依据：因果关系是一定（粗暴理解相关系数为1），相关关系是一个概率问题。

以上主要介绍了集中趋势的度量、离散程度的度量、分布形态的度量。当业务人员/老板拿到一堆数据，丢到你面前，让你分析。这时你不会不知所措，也不会不知道从哪一步开始整理这些数据。你可以通过概括性的度量指标，来帮我们从更科学的角度发现数据问题，开展数据分析工作。

最后，感觉文章对你有帮助的小伙伴，记得点赞、关注噢！

相似回答

描述性统计- 统计指标答：描述性统计是理解数据的第一步，它涵盖了制表、图形和计算数据特征的精华。当我们谈到连续型数据时，关键指标包括均值——它展示了数据集的中心趋势，**中位数**在处理异常值时更为稳健，**众数**揭示了数据的集中趋势，**方差**和**标准差**反映数据的分散程度，**四分位数**和**极差**则揭...

描述性统计有哪些答：描述性统计主要包括以下几项：一、描述集中趋势的统计量。这是描述数据集中水平的统计量，如均值、中位数和众数等。均值反映了数据的平均情况；中位数反映了数据中间的取值情况；众数反映了数据中出现次数最多的数值。它们可以帮助我们快速了解数据集的中心位置以及数据的分布情况。二、描述离散程度的统计量。

描述统计学之数量指标答：在大数据的海洋中，统计学犹如导航灯，引领我们揭示数据的深度和秘密。描述性统计学是它的基础，通过平均值（平均数）、中位数和四分位数，我们得以简化纷繁数据，揭示关键的洞察。平均值虽然直观，但易受异常值的干扰，而中位数和四分位数则更为稳健。它们如同数据的分水岭，四分位数通过箱线图清晰...

统计学有哪些常见的统计量?答：统计量是对样本数据进行总结和分析的数值指标。不同类型的统计量使用不同的公式，具体公式取决于所要描述的统计量和数据的特征。以下是一些常见的统计量及其公式：1. 平均数（均值）：平均数是一组数据的总和除以数据的数量。公式：平均数 = 总和 / 数据数量 2. 中位数：中位数是一组数据按照大小...

大家正在搜

统计学分类数据分析统计学数据分析的方法大学生统计学数据分析案例数据统计和数据分析描述统计学和推断统计学统计学大数据分析统计学数据分析题数据分析统计学门槛统计学作业数据分析