首页 >>  正文

均值公式

来源:baiyundou.net   日期:2024-09-23

数据分析系列内容,“平均值”可靠吗?辛普森悖论是什么?总体局部如何选择?数据分析是如何应用到日常生活中的?这篇文章作者将详细给出答案,通过白话方式介绍复杂问题。推荐对数据分析感兴趣的童鞋阅读。

00 写在前面

不知道大家有没有类似的经历?有没有曾经因为追求高端的算法和工具而没有及时交付最终的业务结果,最后被老板一通批评;有没有拿着一个单点的数据分析结果就给出了一个全面的结论和建议;有没有给过一些因果倒置或者“幸存者偏差”的结论,导致业务走了弯路。这些经历大家多多少少都会遇到,为什么会犯这些错误?因为我们缺乏了一些基本的数据分析思维。

刚好最近一直在拜读郭炜的【数据分析思维课】,讲得很好,内容深入浅出,很接地气。我们很多人缺乏的不是数据分析的理论,而是在实际场景中应用理论的能力,理论+实际场景=方法论,如何把看似浮在空中的理论落地到实际的工作场景中来,就需要通过简单易懂的案例和近似白话的语言传达出来,这也是为什么会有【白话数据分析】这个系列的原因。

无论你是什么阶段什么水平,我们从生活/工作中最常见的案例出发,用最直白的文字把理论讲清楚,真正掌握数据分析的基本思维和原理,这也是写这个系列文章的初衷。

因为是白话,所以在这个系列文章中,没有晦涩难懂的公式和复杂的程序,我只是希望用大白话的形式,结合工作和生活中的各种各样的例子,学会怎样从数据分析的角度来解决这些问题,掌握一些数据分析最基本的知识。放我们再看待同一件事情的时候,思路和以前不一样了,可以从数据的角度来诠释身边发生的事情,用数据的思维来做出你的判断。

01 举个栗子

最近,公司的一位数据分析同事的竞品分析报告里提到:“我们客户的平均客单价是 100元钱,竞争对手的只有 50 元,我们的客户比对方的高端多了。所以我们产品要走高端路线”这些结论可信吗?还真不一定

再举一个例子,某游戏公司做了款游戏,有 Android 和 iOS 版本。一个数据分析师看完用户的付费数据后,发现整体上 iOS 付费率比较高。他就直接告诉老板说,“我们 iOS的用户付费率要高于Android的用户付费率,我们应该集中资源开发iOS客户端!”这个结论可信么?还真不一定

我们在日常生活中也会遇到这种情况,可以看到各种统计数据,“某市的人均住房面积是 120 平米”,“全国人均年收入超过 30 万元”,看完这个数据之后,开始怀疑人生了,对不起,我那么有钱我自己都不知道。

02 平均值为啥不靠谱?

以后看到这么不专业的统计报告就别看了。稍微有点数据思维的朋友都知道,这是我们被平均了,那准确客观的平均值统计应该是怎样的?

首先,我们得知道平均值究竟是什么。从概念上看,平均值有很多种。单从数学上来说,就有算术平均值、几何平均值、平方平均值、调和平均值、加权平均值等等。当然,我们日常生活中提到的平均值都默认是“算术平均值”,也就是“一组数据中所有数据之和再除以数据的个数”。

这个概念很简单,但是算术平均值有很大的短板,其容易受到极端值的影响而不能很好地表征整体水平。它无法客观准确地反映数据整体情况。更进一步来说,整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值,其实是没有意义的。

这也就是为什么你会在读一些统计分析报告时觉得自己不是“被加薪了”,就是“被幸福了”。

03 啥是辛普森悖论?

好,再回到刚才的问题,统计报告说人均年收入达到了30w元,你很容易就会想到这里面有些年薪很高的人拉高了整体水平,所以需要分开来看,这个时候就需要去看细分群体的平均值,比整体平均值更有意义。

整体平均值不能代表各细分群体情况,局部群体结论和整体平均值结论可能会背道而驰。这个现象就是数据分析中最常见的“辛普森悖论”,辛普森悖论是 1951 年由 E.H. 辛普森提出的,简单来讲就是在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方。指局部的结论和整体的结论完全相反

再举个例子说明一下,公司要对客服部的服务质量进行评估,我们发现无论是男生还是女生,一组的优秀客服比例都比二组好,但总体上一组的优秀客服比例却比二组低。

  • 一组的优秀客服比例是:(40+60)/(60+200)≈40%
  • 二组的优秀客服比例是:(140+4)/(200+40)=60%

二组的的整体优秀客服比例明显高于一组。再分开男女单独比较:

  • 一组女生优秀客服比例100%,高于二组女生的70%。
  • 一组男生优秀客服比例30%,高于二组男生生的10%。

一组的男生优秀客服比例和女生优秀客服比例都比二组高,但为什么一组整体优秀客服比例却比二组低?二组的优秀客服比例高的原因在于二组女生多,一组女生少,一组女生表现虽然好,但人数太少,拉不起整个一组的表现,导致二组整体成绩比一组好。细心的同学可能注意到了,这种悖论一般出现在分组样本不均衡的情况下,上面的例子中,两组男女性比例相差较大。

我们通常会讲到“质量”这个词,而且是一起出现,但实际上,“质”与“量”是两个不同的方面,我们在考虑质的时候,一定要注意量的影响,我们如果把这两者揉成一个“质”,就会出现辛普森悖论。

回顾一下文章开头提到的案例,我们发现Android用户的付费率比iOS用户低,再细分下去就会发现,我们也是错误地把“质”(付费率)和“量”(用户数)混为一谈,结论很有可能是错误的

因为很有可能出现这样一种情况:Android 无论是男性还是女性的付费率分别都比 iOS 高,但是整体上因为Android男性用户比较多,而iOS女性用户比较多,简单一点可以理解为,Android以男性用户为主,iOS则恰巧相反,以女性用户为主,占据主导因素的Android男性的付费率比iOS女性的付费率要低,所以最终导致整体上Android用户的付费率比iOS用户低。

简单的道理来说,就是Android最大的优势(男性用户)没有比过iOS最大的优势(女性用户),这是决定最终整体走向的关键。

04 总体/局部,我们信哪个?

那么问题来了?如果真的出现了辛普森悖论,那我们到底应该相信整体的结论还是细分的结论?我想到这里,大家应该比较清晰了,只要细分的用户群体足够大,有统计学意义上的显著性,那一定是以细分结论为准,因为真理都是需要抽丝剥茧,藏在细节处。

但是如果细分的群体太小,比如上面的例子中,细分以后各组的用户数都很小,不具统计学意义,那细分的结论就不可信了。

所以还是那句话,无论是整体还是细分,在看“质”的同时,一定要兼顾“量”的影响,这是理解辛普森悖论最重要的一点。

讲到这里,平均值和辛普森悖论也给我们一些生活上的启发,它告诉我们要抓大放小,把握住重要的东西,充分沉淀我们的优势,这样整体上我们就有更强的竞争力,不要因为某一个不重要的单项优势就得意忘形,也不要因为一个微不足道的失败就一蹶不振。

生活要有一颗平常心,我们的目标是让我们这一生的“人生平均值”逐步提高。

本文由@数据分析星球 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

","force_purephv":"0","gnid":"9d65de2da41d29be3","img_data":[{"flag":2,"img":[{"desc":"","height":"420","title":"","url":"https://p0.ssl.img.360kuai.com/t014fb1fffc905f64d4.jpg","width":"900"},{"desc":"","height":"388","title":"","url":"https://p0.ssl.img.360kuai.com/t013c9d5d78af6f90db.jpg","width":"1039"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"hbase","pub_time":1673354100000,"pure":"","rawurl":"http://zm.news.so.com/6ad17017f5583f4b03025348895e2ed8","redirect":0,"rptid":"4b09e90f8ea2d1ea","s":"t","src":"人人都是产品经理","tag":[{"clk":"ktechnology_1:ios","k":"ios","u":""},{"clk":"ktechnology_1:辛普森","k":"辛普森","u":""},{"clk":"ktechnology_1:android","k":"android","u":""}],"title":"从实例出发,聊聊“平均值”和“辛普森悖论”

那以卷1998Excel如何用公式计算平均值 -
茹爬厕17793804604 ______ 1. 先选中你要放置平均数的单元格; 2. 选择工具栏上的公式工具; 3. 在弹出的菜单中选择“平均值”; 4. 自动弹出公式如下图,虚线框是表格自动求平均值的范围(下一步按自己需求重框选) 5. 框选数据范围; 6. 按回车,平均值就自动算出来; 7. 效果图

那以卷1998均值,方差,中位数,众数怎样计算 -
茹爬厕17793804604 ______[答案] 均值:各个数相加,除以数字的个数 例如:求1,3,6,10,20这5个数的均值,均值=(1+3+6+10+20)÷5=8 方差:方差是各个数据与平均数之差的平方和的平均数,即 s^2=(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2] 其中,x_表示样本的平均数,n表示样本...

那以卷1998均值方差公式
茹爬厕17793804604 ______ 均值方差公式:若x1,x2,x3......xn的平均数为m,则方差s^2=1/n[(x1-m)^2+(x2-m)^2+.......+(xn-m)^2],方差即偏离平方的均值,称为标准差或均方差,方差描述波动程度.方差是应用数学里的专有名词.在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离.一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量.方差的算术平方根称为该随机变量的标准差.

那以卷1998均值公式a+b=1 a/1+b/1的最小值 -
茹爬厕17793804604 ______ (1/a)+(1/b)=(a+b)/ab=1/ab ab≤(a+b)^2/4=1/4 1/ab≥4

那以卷1998均值和方差的关系公式
茹爬厕17793804604 ______ 均值和方差的关系公式是D(X)=X[X^2]-E[X]^2,概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度,在许多实际问题中,研究方差即偏离程度有着重要意义.平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数.它是反映数据集中趋势的一项指标.

那以卷1998excel表求平均值公式? -
茹爬厕17793804604 ______ 假若平均数值放在D4单元格中,则将鼠标选中D4,设置D4单元属性.设置方法:选中D4单元格点右健(或者点菜单栏格式按钮)点设置单元格格式--选数字下面的数值然后取小数为数为0,点确定.然后输入D4=AVERAGE(A1:C1)

那以卷1998EXCEL求平均值公式 -
茹爬厕17793804604 ______ 公式: =SUM(MAX(A:A),MAX(B:B),MAX(C:C))/((COUNT(A:A)<>0)+(COUNT(B:B)<>0)+(COUNT(C:C)<>0))

那以卷1998Excel求平均值的公式 -
茹爬厕17793804604 ______ 用AVERAGE公式,输入=AVERAGE (A:B)

那以卷1998均值不等式公式是哪四个? -
茹爬厕17793804604 ______ 均值不等式,又称为平均值不等式、平均不等式,是数学中的一个重要公式.公式内容为Hn≤Gn≤An≤Qn,即调和平均数不超过几何平均数,几何平均数不超过算术平均数,算术平均数不超过平方平均数. 均值不等式的公式内容为Hn≤Gn≤An≤Qn. 拓展资料: 均值不等式,又名平均值不等式、平均不等式,是数学中的一个重要公式. Hn≤Gn≤An≤Qn,即调和平均数不超过几何平均数,几何平均数不超过算术平均数,算术平均数不超过平方平均数.简记为“调几算方”. 调和平均数: 几何平均数: 算术平均数: 平方平均数:

那以卷1998excel表格运用中怎么求平均值?函数公式是什么? -
茹爬厕17793804604 ______ 用函数AVERAGE,公式:AVERAGE(你要求平均数的数据区域),如:=AVERAGE(C2:C4),表示C2到C4共3个数的平均数.

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024