样本标准差(标准差公式计算过程)

随着ab检测在互联网用户增长中的普及，各家都搭建了自己的ab检测平台(不限于BAT)或者购买了ab检测服务。今天我们就来看看ab测试的前世，它能为企业解决什么问题，如何规范ab测试流程，如何搭建AB测试平台。

样本标准差(标准差公式计算过程)插图 36Kr曾在一份报告中写道:“当一个新的APP在头条发布时，它的名字必须通过在各大应用市场投放N个包进行多次A/B测试来确定。张一鸣告诉他的同事:就算你99.9%确定这是最好的名字，你测试一下又有什么关系呢？”

一、追本溯源

AB试验的前身是随机对照试验——双盲试验，即“医学/生物学实验将受试者随机分组，针对不同的组进行不同的干预，使对照生效”。

在双盲试验中，患者被随机分为两组，在他们不知情的情况下，分别给予安慰剂和试验药物。经过一段时间的实验，比较两组的表现，以确定试验药物是否真的有效。

2000年，谷歌工程师进行了第一次AB测试，试图确定搜索引擎结果页面显示结果的最佳数量。后来，AB测试继续发展，但基础和基本原则通常保持不变。2011年，在谷歌首次测试11年后，谷歌进行了7000多次不同的AB测试。

奥巴马12年竞选网站的风格通过AB测试找到了更有吸引力的筹款，帮助奥巴马赢得了更高的筹款金额。

AB把不同的用户分成不同的组，同时测试不同的方案，通过用户反馈的真实数据，找出哪个方案更好。解决方案是“多种方案需要拍脑袋确认哪种更好”。

二、特性先验性：A/B Test 是一种“先验体系”，属于预测型结论（与其相对的是后验型的经验归纳）。同样是一个方案是否好坏：A/B Test 通过小流量测试获得具有代表性的实验结论，来验证方案好坏后再决定是否推广到全量；后验型则是通过发布版本后的版本数据对比总结得到。并行性：是指支持两个或以上的实验同时在线，并需要保证其每个实验所处环境一致。并行性极大的降低了多实验的时间成本。科学性：AB Test是用科学的方式来验证方案，科学性体现在流量分配的科学性、统计的科学性。记得在开篇提到的“AB测试的前身是随机对照实验，医疗/生物实验将研究对象随机分组，对不同组实施不同的干预，对照起效果”，这要求AB Test将相似特征的用户均匀的分派到实验组别中，确保每个组别的用户特征相同。三、统计学原理3.1 抽样

总体来说:“它是包含所有被研究的个体(数据)的集合，通常由一些被研究的个体组成，比如由多个企业组成的集合，由多个家庭组成的集合，由多人组成的集合，等等”。对于一个app或者网站来说，它的所有用户就是整体。

样本:与总体相对应，是从总体中按一定比例选取的、代表总体的部分个体的集合。比如抽取5%的app用户，组成实验组和对照组。

从总体到样本的过程就是抽样。所以ABTest就是通过抽样获得实验组和对照组，比较统计均值来衡量实验效果。

抽样面临的问题是“如何从总体中按一定比例选取一组随机样本？”，即样本统计量是否能代表整体参数？

3.2 参数估计

为了估计总体参数，将计算样本的统计数据，例如优化指数的平均值。而样本的统计结果是真实总体统计结果的点估计，只是点估计树值和总体参数值有一定的差别。可以构造区间估计来获得点估计值与总体参数之差的信息。区间估计是在点估计的基础上给出总体参数的一个概率范围(点估计+/-边际误差)。

边际误差可以通过总体标准差或样本标准差来计算。

(1)已知总体标准差

假设:总体标准差=20，历史数据显示总体呈正态分布；选取100个个体组成样本，样本平均值为82。

样本标准差=总体标准差/开根号(样本数)=20/开根号(100)=2

因此，样本符合均值为82、标准差为2的正态分布。

= & gt根据标准的正态分布表，任何正态分布的随机变量的95%的值在平均值附近的+/-1.96标准偏差内。

= & gt当样本均值为正态分布时，样本均值的95%必须是+/-3.96 (1.96 * 2 = 3.96) = >:总体=样本均值+/- 3.96 = 82 +/-3.96

= & gt95%置信区间(78.08，85.92)包括总体均值。

**95%为置信水平，(78.08，85.92)为置信区间，边际误差为Z分布(总体标准差/开根号(样本数))。

(2)样本标准差已知，但总体标准差未知。

总体均值=样本均值+/- t分布(样本标准差/根数(样本数))

基于以上讨论，可以得出置信区间(78.08，85.92)包含某一置信水平下的总体均值，论证了“样本统计量与总体参数的相似程度”。

接下来，文章将介绍如何知道一个方案的好坏。-您可以确认是否应通过假设检验拒绝总参数的值。

3.3 假设检验

暂定假设是H0的原始假设，而替代假设是与原始假设相反的H1。在AB检验中，原假设H0:实验组和参照组之间没有差异，但替代假设不同。

在假设检验的过程中，会出现以下情况(横向来看，真实情况永远是结论):

样本标准差(标准差公式计算过程)插图(1) 我们做实验的时候，希望尽可能控制第一类/第二类误差。

第一种错误:当最初的假设为真时拒绝它。首先，我们容易犯第一种错误，即当最初的假设为真时拒绝它。说白了，当两个版本没有区别的时候，我们就误以为是不同的。

第一类错误的概率称为检验的显著性水平α，一般为0.05或0.01。指定α来控制错误概率。

第一种犯罪的假设检验称为显著性检验，用P值来判断:P值是Z值(查表)的概率值，是对样本提供的证据所支持的原假设的度量。P值越小，越有证据反对最初的假设。当p值

请注意，这里的描述“不能排斥H0，也不能排斥H0”，但不能把H1描述为真(如果第一类被控制，但第二类未被控制，这只能描述)。

第二种错误:当原假设为假时，接受原假设，即“当两个版本存在差异时，我们认为它们之间没有差异。”这个概率记为β，不犯第二类错误的概率为1- β。1- β:当H0为假时，作出拒绝H0的正确结论的概率称为“检验功效”，最低统计功效值通常为80%。

综上所述，一般情况下，AB实验中95%+的置信水平，:80%的统计功效，可以认为该实验是有效的，有代表性的结果是可信的。

曾经有大量的文章批评P值已死，因为它无法提供一个人类所期待的结论。在统计学意义上，p的值是用来推断的，而不是用来总结的。仅用P值来确认显著性并直接得出结论是不合适的。学生的祖师爷听到会跳起来。只有引入统计功效和置信区间，才能对实验数据进行科学解释。

四、科学分流4.1 分流

导流就是把用户分成AB实验的过程。

你如何知道用户应该做哪些实验？

哈希用户id，取模块得到实验。如果用户数量足够大，可以设为模1000，10000，会得到更多的用户群。这种方法记录为单层实验架构，每个用户只会被分成一组，同一时间只会参与一个实验。

这里的用户id并不是特指user_id。由于实验的范围不同，用户id可以是user_id、device_id、cookieid和global_id。global_id是不同公司调用的，但其表达方式是指全局流量id，是唯一基于多个id的id。

4.2 多层重叠实验

如果同时有几个大流量实验在线，如何添加新的？

Google的文章描述了多层重叠实验，可以解决这个问题，也是业界的主要方式。多层重叠实验可以做到“多、好、快”做AB测试。

多层重叠实验的几个概念:

域：域是对用户流量的一种纵向划分，将流量垂直的切分成多块，多个域中的实现相互没有干扰，保证实验纯度。层：层是对域流量的一个横向划分。每个层使用独立的Hash函数对用户进行分桶，使得多个层之间的用户流量是正交的。如下图所示，每个层中的实验对其他层的影响都是正交的，，一份流量穿越每层实验时，都会被再次随机打散，参与第一层中实验X的用户，均匀的分散在层B中，使层B中的实验也可以独立进行分析，并得到准确的分析结果。层内实验为互斥实验。层内多实验互斥关系（下图）与域的互斥关系相同，只是表述粒度不同。该流量可以继续以“域”划分为层，无限嵌套，但这样复杂度会急剧增加，是不推荐的。样本标准差(标准差公式计算过程)插图(2) 如果实验相互影响(比如实验A改变按钮样式，实验B改变按钮副本)，那么两个实验室需要设置为互斥实验，建议放在同一层。如果实验之间没有影响(例如在UI、搜索和广告推荐实验中)，可以在不同层次进行实验。

此外，在精细化运营和国际化的本地化产品策略中，指定流量需要进行AB测试，比如针对巴西用户的AB测试。已经接受测试的学生也需要将自己的id添加到测试人群中，但是这些用户的数据不应该参与效果分析。特殊号码过滤:如果某些用户id分布在特殊人群中，则需要对该人群进行过滤。

五、AB Test 系统

上面提到的所有原则都是ABTest的原则。为了加快ABTest，AB Test的代码早已打包成产品，如优化、喊技术、testin等。已经商业化了。BAT TMD也有自己的AB测试系统。

致产品、运营、算法同学(做实验的):

创建实验，并同步实验信息到服务端、客户端开发，以便其写代码时使用实验code；获取实验结果。

To-end用户(不限于C-end，这里只是指被实验者)会决定用户在做哪些实验。

样本标准差(标准差公式计算过程)插图(3) 考试系统和其他系统一样，包括管理模块、权限模块等。

每个AB测试系统:

AB测试平台:https://tech.meituan.com/2019/November 28/广告-性能-实验-配置-平台. html

大众点评:https://www.csdn.net/article/2015-03-24/2824303

优化:http://www.googleoptimizedemos.com/

技术:http://www.appadhoc.com/

六、如何科学的做AB测试（AB测试标准化）

有了ABTest的概念，原则，以及购买或自建的系统，我们如何建立一个标准化的流程，以便在团队中完全实施？

6.1 ABTest的局限性

在讨论ABTest的标准化实现过程之前，我们先来看看ABTest的局限性，无非是将其神化。

(1)ABTest是验证方案和想法的策略，而不是策略。

我非常同意知乎上的一句话:

“你可以用A/B测试让你在已经到达的山上越来越高，但你不能用它来发现新的山脉。如果你的产品真正需要的是一个彻底的转变，那么A/B测试可能是不可能的”。

在张一鸣清华大学经济管理学院，人们提出了这样一个问题:“项目管理可以使用吗？产品设计是否更依赖ABtest而非直觉？”回答:

“我们认为这和ABtest一样重要。我们反对从逻辑到逻辑，从逻辑到逻辑，很容易搞错。亲身体验可以帮助我们远离偏差，我们愿意把用户的感受和体验带给公司。全球化首先是海外用户反馈，提供联系方式，让用户直接联系我们。PM需要感观，AB的科学可以在细节上减少努力。

(2)ABTest有开发成本。

(3)ABTest的数据只是现象，没有细节。

ABTest能给出实验组优于对照组的现象，但不能给出过程数据。在测试相对复杂的方案时，ABTest无法表达出哪方面显示出优势。

6.2 ABTest的标准化流程样本标准差(标准差公式计算过程)插图(4) 另外，测试AB时需要警惕辛普森悖论。

后续:ABTest的相关知识点会在本文陆续补充。希望大家可以在评论里@我，我会一一回复，补充到文章里。

本文由@cecil原创发布。每个人都是产品经理。未经许可，禁止复制。

来自Unsplash的图像，基于CC0协议。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。

作者：美站资讯，如若转载，请注明出处：https://www.meizw.com/n/126827.html

样本标准差(标准差公式计算过程)

相关推荐

发表回复