样本标准差(标准差公式计算过程)

随着ab检测在互联网用户增长中的普及,各家都搭建了自己的ab检测平台(不限于BAT)或者购买了ab检测服务。今天我们就来看看ab测试的前世,它能为企业解决什么问

随着ab检测在互联网用户增长中的普及,各家都搭建了自己的ab检测平台(不限于BAT)或者购买了ab检测服务。今天我们就来看看ab测试的前世,它能为企业解决什么问题,如何规范ab测试流程,如何搭建AB测试平台。

样本标准差(标准差公式计算过程)插图36Kr曾在一份报告中写道:“当一个新的APP在头条发布时,它的名字必须通过在各大应用市场投放N个包进行多次A/B测试来确定。张一鸣告诉他的同事:就算你99.9%确定这是最好的名字,你测试一下又有什么关系呢?”

一、追本溯源

AB试验的前身是随机对照试验——双盲试验,即“医学/生物学实验将受试者随机分组,针对不同的组进行不同的干预,使对照生效”。

在双盲试验中,患者被随机分为两组,在他们不知情的情况下,分别给予安慰剂和试验药物。经过一段时间的实验,比较两组的表现,以确定试验药物是否真的有效。

2000年,谷歌工程师进行了第一次AB测试,试图确定搜索引擎结果页面显示结果的最佳数量。后来,AB测试继续发展,但基础和基本原则通常保持不变。2011年,在谷歌首次测试11年后,谷歌进行了7000多次不同的AB测试。

奥巴马12年竞选网站的风格通过AB测试找到了更有吸引力的筹款,帮助奥巴马赢得了更高的筹款金额。

AB把不同的用户分成不同的组,同时测试不同的方案,通过用户反馈的真实数据,找出哪个方案更好。解决方案是“多种方案需要拍脑袋确认哪种更好”。

二、特性先验性:A/B Test 是一种“先验体系”,属于预测型结论(与其相对的是后验型的经验归纳)。同样是一个方案是否好坏:A/B Test 通过小流量测试获得具有代表性的实验结论,来验证方案好坏后再决定是否推广到全量;后验型则是通过发布版本后的版本数据对比总结得到。并行性:是指支持两个或以上的实验同时在线,并需要保证其每个实验所处环境一致。并行性极大的降低了多实验的时间成本。科学性:AB Test是用科学的方式来验证方案,科学性体现在流量分配的科学性、统计的科学性。记得在开篇提到的“AB测试的前身是随机对照实验,医疗/生物实验将研究对象随机分组,对不同组实施不同的干预,对照起效果”,这要求AB Test将相似特征的用户均匀的分派到实验组别中,确保每个组别的用户特征相同。三、统计学原理3.1 抽样

总体来说:“它是包含所有被研究的个体(数据)的集合,通常由一些被研究的个体组成,比如由多个企业组成的集合,由多个家庭组成的集合,由多人组成的集合,等等”。对于一个app或者网站来说,它的所有用户就是整体。

样本:与总体相对应,是从总体中按一定比例选取的、代表总体的部分个体的集合。比如抽取5%的app用户,组成实验组和对照组。

从总体到样本的过程就是抽样。所以ABTest就是通过抽样获得实验组和对照组,比较统计均值来衡量实验效果。

抽样面临的问题是“如何从总体中按一定比例选取一组随机样本?”,即样本统计量是否能代表整体参数?

3.2 参数估计

为了估计总体参数,将计算样本的统计数据,例如优化指数的平均值。而样本的统计结果是真实总体统计结果的点估计,只是点估计树值和总体参数值有一定的差别。可以构造区间估计来获得点估计值与总体参数之差的信息。区间估计是在点估计的基础上给出总体参数的一个概率范围(点估计+/-边际误差)。

边际误差可以通过总体标准差或样本标准差来计算。

(1)已知总体标准差

假设:总体标准差=20,历史数据显示总体呈正态分布;选取100个个体组成样本,样本平均值为82。

样本标准差=总体标准差/开根号(样本数)=20/开根号(100)=2

因此,样本符合均值为82、标准差为2的正态分布。

= & gt根据标准的正态分布表,任何正态分布的随机变量的95%的值在平均值附近的+/-1.96标准偏差内。

= & gt当样本均值为正态分布时,样本均值的95%必须是+/-3.96 (1.96 * 2 = 3.96) = >:总体=样本均值+/- 3.96 = 82 +/-3.96

= & gt95%置信区间(78.08,85.92)包括总体均值。

**95%为置信水平,(78.08,85.92)为置信区间,边际误差为Z分布(总体标准差/开根号(样本数))。

(2)样本标准差已知,但总体标准差未知。

总体均值=样本均值+/- t分布(样本标准差/根数(样本数))

基于以上讨论,可以得出置信区间(78.08,85.92)包含某一置信水平下的总体均值,论证了“样本统计量与总体参数的相似程度”。

接下来,文章将介绍如何知道一个方案的好坏。-您可以确认是否应通过假设检验拒绝总参数的值。

3.3 假设检验

暂定假设是H0的原始假设,而替代假设是与原始假设相反的H1。在AB检验中,原假设H0:实验组和参照组之间没有差异,但替代假设不同。

在假设检验的过程中,会出现以下情况(横向来看,真实情况永远是结论):

样本标准差(标准差公式计算过程)插图(1)我们做实验的时候,希望尽可能控制第一类/第二类误差。

第一种错误:当最初的假设为真时拒绝它。首先,我们容易犯第一种错误,即当最初的假设为真时拒绝它。说白了,当两个版本没有区别的时候,我们就误以为是不同的。

第一类错误的概率称为检验的显著性水平α,一般为0.05或0.01。指定α来控制错误概率。

第一种犯罪的假设检验称为显著性检验,用P值来判断:P值是Z值(查表)的概率值,是对样本提供的证据所支持的原假设的度量。P值越小,越有证据反对最初的假设。当p值

请注意,这里的描述“不能排斥H0,也不能排斥H0”,但不能把H1描述为真(如果第一类被控制,但第二类未被控制,这只能描述)。

第二种错误:当原假设为假时,接受原假设,即“当两个版本存在差异时,我们认为它们之间没有差异。”这个概率记为β,不犯第二类错误的概率为1- β。1- β:当H0为假时,作出拒绝H0的正确结论的概率称为“检验功效”,最低统计功效值通常为80%。

综上所述,一般情况下,AB实验中95%+的置信水平,:80%的统计功效,可以认为该实验是有效的,有代表性的结果是可信的。

曾经有大量的文章批评P值已死,因为它无法提供一个人类所期待的结论。在统计学意义上,p的值是用来推断的,而不是用来总结的。仅用P值来确认显著性并直接得出结论是不合适的。学生的祖师爷听到会跳起来。只有引入统计功效和置信区间,才能对实验数据进行科学解释。

四、科学分流4.1 分流

导流就是把用户分成AB实验的过程。

你如何知道用户应该做哪些实验?

哈希用户id,取模块得到实验。如果用户数量足够大,可以设为模1000,10000,会得到更多的用户群。这种方法记录为单层实验架构,每个用户只会被分成一组,同一时间只会参与一个实验。

这里的用户id并不是特指user_id。由于实验的范围不同,用户id可以是user_id、device_id、cookieid和global_id。global_id是不同公司调用的,但其表达方式是指全局流量id,是唯一基于多个id的id。

4.2 多层重叠实验

如果同时有几个大流量实验在线,如何添加新的?

Google的文章描述了多层重叠实验,可以解决这个问题,也是业界的主要方式。多层重叠实验可以做到“多、好、快”做AB测试。

多层重叠实验的几个概念:

域:域是对用户流量的一种纵向划分,将流量垂直的切分成多块,多个域中的实现相互没有干扰,保证实验纯度。层:层是对域流量的一个横向划分。每个层使用独立的Hash函数对用户进行分桶,使得多个层之间的用户流量是正交的。如下图所示,每个层中的实验对其他层的影响都是正交的,,一份流量穿越每层实验时,都会被再次随机打散,参与第一层中实验X的用户,均匀的分散在层B中,使层B中的实验也可以独立进行分析,并得到准确的分析结果。层内实验为互斥实验。层内多实验互斥关系(下图)与域的互斥关系相同,只是表述粒度不同。该流量可以继续以“域”划分为层,无限嵌套,但这样复杂度会急剧增加,是不推荐的。样本标准差(标准差公式计算过程)插图(2)如果实验相互影响(比如实验A改变按钮样式,实验B改变按钮副本),那么两个实验室需要设置为互斥实验,建议放在同一层。如果实验之间没有影响(例如在UI、搜索和广告推荐实验中),可以在不同层次进行实验。

此外,在精细化运营和国际化的本地化产品策略中,指定流量需要进行AB测试,比如针对巴西用户的AB测试。已经接受测试的学生也需要将自己的id添加到测试人群中,但是这些用户的数据不应该参与效果分析。特殊号码过滤:如果某些用户id分布在特殊人群中,则需要对该人群进行过滤。

五、AB Test 系统

上面提到的所有原则都是ABTest的原则。为了加快ABTest,AB Test的代码早已打包成产品,如优化、喊技术、testin等。已经商业化了。BAT TMD也有自己的AB测试系统。

致产品、运营、算法同学(做实验的):

创建实验,并同步实验信息到服务端、客户端开发,以便其写代码时使用实验code;获取实验结果。

To-end用户(不限于C-end,这里只是指被实验者)会决定用户在做哪些实验。

样本标准差(标准差公式计算过程)插图(3)考试系统和其他系统一样,包括管理模块、权限模块等。

每个AB测试系统:

AB测试平台:https://tech.meituan.com/2019/November 28/广告-性能-实验-配置-平台. html

大众点评:https://www.csdn.net/article/2015-03-24/2824303

优化:http://www.googleoptimizedemos.com/

技术:http://www.appadhoc.com/

六、如何科学的做AB测试(AB测试标准化)

有了ABTest的概念,原则,以及购买或自建的系统,我们如何建立一个标准化的流程,以便在团队中完全实施?

6.1 ABTest的局限性

在讨论ABTest的标准化实现过程之前,我们先来看看ABTest的局限性,无非是将其神化。

(1)ABTest是验证方案和想法的策略,而不是策略。

我非常同意知乎上的一句话:

“你可以用A/B测试让你在已经到达的山上越来越高,但你不能用它来发现新的山脉。如果你的产品真正需要的是一个彻底的转变,那么A/B测试可能是不可能的”。

在张一鸣清华大学经济管理学院,人们提出了这样一个问题:“项目管理可以使用吗?产品设计是否更依赖ABtest而非直觉?”回答:

“我们认为这和ABtest一样重要。我们反对从逻辑到逻辑,从逻辑到逻辑,很容易搞错。亲身体验可以帮助我们远离偏差,我们愿意把用户的感受和体验带给公司。全球化首先是海外用户反馈,提供联系方式,让用户直接联系我们。PM需要感观,AB的科学可以在细节上减少努力。

(2)ABTest有开发成本。

(3)ABTest的数据只是现象,没有细节。

ABTest能给出实验组优于对照组的现象,但不能给出过程数据。在测试相对复杂的方案时,ABTest无法表达出哪方面显示出优势。

6.2 ABTest的标准化流程样本标准差(标准差公式计算过程)插图(4)另外,测试AB时需要警惕辛普森悖论。

后续:ABTest的相关知识点会在本文陆续补充。希望大家可以在评论里@我,我会一一回复,补充到文章里。

本文由@cecil原创发布。每个人都是产品经理。未经许可,禁止复制。

来自Unsplash的图像,基于CC0协议。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/126827.html

发表回复

登录后才能评论