导读:p值(P value)便是当原假定为真时,比所得到的样本调查成果更极点的成果出现的概率,是用来断定假定查验成果的一个参数。p值是依据实践核算量核算出的明显性水平。本文带你了解p值和对p值的常见误解。

作者:罗恩·科哈维(Ron Kohavi)、黛安·唐(Diane Tang)、许亚(Ya Xu)

来历:篇章科技01 假定查验:建立核算明显性在对照试验中,试验组有一组样本,每个对照组各有一组样本。假如零假定是来自试验组的样本和来自对照组的均值相同,咱们会定量测验两组样本的差异的或许性巨细。

假如或许性十分小,则咱们回绝零假定,并声称差异是核算明显的。切当地说,有了试验组样本和对照组样本的人均营收的估计值,咱们能够核算估计值的差异的p值,即在零假定为真的状况下观测到这种差值或更极点的差值的概率。

假如p值满足小,则咱们回绝零假定,并得出试验有用应(或许说成果核算上明显)的定论。可是多小是满足小呢?

科学的标准是运用小于0.05的p值,也便是说,假如事实上是没有用应的,那么100次里咱们有95次能正确地推断出没有用应。另一种查验样本差异是否核算明显的办法是看置信区间有没有包括零值。95%置信区间是一个能够在95%的时刻里掩盖实在差异值的区间。

关于较大的样本量,这个区间一般以观测到的试验组和对照组差值为中心点,向两头各扩展1.96倍于标准差的宽度。图2.3展现了p值和置信区间这两种办法的等价性。 ▲图2.3

上图:用p值鉴定观测到的差值是否核算明显。假如p值小于0.05,则以为是核算明显的。下图:用95%置信区间Δ-1.96σ,Δ+1.96σ鉴定核算明显性的等价办法。假如零值落在置信区间之外,则以为是核算明显的

核算成效(statistical power)是假如变体之间有实在差异,检测出有含义的差值的概率(核算上指当实在有差异时回绝零假定的概率)。

从实践的视点来说,你想要试验有满足大的成效,然后能够以高概率得出试验是否导致了比你所介意的改变更大的改变的定论。一般状况下,样本量越大,核算成效就越大。试验设计的惯常做法是挑选80%~90%的核算成效。

尽管“核算明显性”衡量了当零假定为真时,依据偶然性得到你的调查值或更极点调查值的或许性有多大,但不是一切核算明显的成果都有实践含义。

以人均营收为例,多大的差异从事务视点来说是重要的?换句话说,什么样的改变是实践明显的(practically significant)?构建这一实质性的鸿沟很重要,它能够协助了解一个差异是否值得花费相应改动所需的本钱。

假如你的网站像谷歌和必应那样稀有十亿美金的营收,那么0.2%的改变是实践明显的。作为比照,一个草创公司或许以为2%的增加都太小了,因为他们寻求的是10%或更大的增加。关于咱们的比方,从事务视点来看,人均营收进步1%及以上是重要的或许说是实践明显的。

02 误解核算成果咱们现在来介绍一些解读对照试验的数据经常见的过错。

1. 核算成效缺乏

零假定明显性查验(Null Hypothesis Significance Testing, NHST)结构一般假定对照组和试验组之间的目标没有差异(零假定),假如数据能供给有力的对立依据,则回绝该假定。

一个常见的过错是,只是因为目标不是核算明显的,就假定没有试验效应。而实在的状况很或许是因为试验的核算成效缺乏以检测到咱们看到的效应量,也便是试验没有满足的用户。

例如,对GoodUI的115个A/B测验进行的评价标明,大多数试验的核算成效缺乏。这便是为什么说重要的是要界说多大的改变是实践明显的,并保证有满足的成效来检测该巨细或更小的改变。

假如试验仅影响整体的一小部分,那么仅剖析受影响的子集就很重要。即便对一小部分用户而言是巨大的影响,也或许在剖析整体时被稀释而且无法被检测到。2. 误解p值

p值经常被误解。最常见的过错解说是依据单个试验中的数据,以为p值代表对照组和试验组的目标平均值相同的概率。

p值是当假定零假定为真时,得到的成果与观测到的成果相同或更极点的概率。零假定的条件至关重要。

以下是“A Dirty Dozen: Twelve P-Value Misconceptions”中的一些不正确的陈说和解说:

1)假如p值=0.05,则零假定只要5%的时机为真。

p值是依据零假定为真的条件来核算的。

2)不明显的差异(例如,p值>0.05)意味着试验组和对照组之间没有差异。

此刻调查到的成果与零假定的试验效应为零相符,但一起也和其他数值的试验效应相符。当展现一个典型的对照试验的置信区间时,咱们发现该区间包括零。但这并不意味着置信区间中的零比其他值更有或许出现。试验很或许没有满足的核算成效。

3)p值=0.05表明在零假定下,咱们调查到的数据仅有5%的时刻出现。

经过上面的p值的界说,咱们知道这是不正确的。该p值(=0.05)包括了出现跟调查到的值相同以及更极点的状况。

4)p值=0.05表明假如回绝零假定,则假阳性的或许性仅为5%。

这和榜首个比方很像,可是更不简单看到其过错性。下面这个比方或许会有所协助:假定你正在测验经过在铅上施加热和压力并浇注药剂来将铅转化为金。

你丈量所得混合物的“黄金”量,这是一个有许多搅扰的丈量。因为咱们知道化学处理无法将铅的原子序数从82变为79,任何对零假定(也便是不变)的否定都是过错的,因而任何状况下回绝零假定都是假阳性,而与p值无关。

要核算假阳率,即在p值<0.05且零假定为真的状况(请注意,这两个条件是一起发生的,而不是以零假定是真的为条件)下,咱们能够运用贝叶斯定理并需要知道先验概率。

即便是前面常见的假定零假定为真的p值的界说,也没有明确地论述其他的假定,比方怎样搜集数据(例如随机采样)以及核算查验做出什么假定。假如进行了中心层次的剖析而影响了挑选哪种剖析来出现,或许因为p值较小而挑选出现p值,那么显然会违背这些假定。

3. 窥视p值

运转线上对照试验时,你能够接连监控p值。事实上,商业产品Optimizely的前期版别曾鼓舞这样做。这样的多重假定查验会导致声称的核算明显的成果有严重的误差(5到10倍)。这里有两种挑选:

1)依照Johari et al. (2017)的主张,运用一直有用的p值的序贯查验,或贝叶斯查验结构。

2)运用预设的试验时长(例如一周)来确认核算明显性。

Optimizely依据榜首种办法施行了一个解决方案,而谷歌、领英和微软的试验渠道则挑选运用第二种办法。

4. 多重假定查验

以下故事来自风趣的书What is a p-value anyway?

核算专家:噢,你现已核算好了p值?外科医生:是的,我用了多类别逻辑回归。核算专家:真的?你怎样想到的?外科医生:我在核算软件的下拉菜单中测验了每种剖析,而该剖析给出的p值最小。多重比较问题是上述窥视问题的一个归纳。当存在多个假定查验且挑选了最低的p值时,咱们对p值和效应巨细的预算或许会出现误差。这体现在以下几个方面:

检查多个目标。检查跨时刻的p值(如上所述的窥视)。检查受众细分群(例如,国家/区域,浏览器类型,重度/轻度运用,新/老用户)。检查试验的屡次迭代。例如,假如试验的确没有任何影响(A/A试验),则运转20次或许会出现一个小于0.05的p值。过错发现率是处理多重查验的要害概念。03 置信区间广泛地说,置信区间能够量化试验效应的不确认程度。置信水平表明置信区间应包括真实的试验效应的频率。p值和置信区间之间存在对偶性。关于对照试验中常用的零差异零假定,试验效应的95%置信区间不包括零意味着p值<0.05。

一个常见的过错是独自检查对照组和试验组的置信区间,并假定假如它们堆叠,则试验效应在核算学上没有差异。这是不正确的,如Statistical Rules of Thumb中所示,它们的置信区间能够堆叠多达29%,但差异是核算明显的。但是,反过来却是对的:假如95%的置信区间不堆叠,则试验效应是核算明显的,此刻的p值<0.05。

关于置信区间的另一个常见误解是以为所出现的95%置信区间有95%的时机包括真实的试验效应。关于特定的置信区间,真实的试验效应要么100%在里面,要么0%在里面。95%是指由许多研讨核算出的95%置信区间有多高频率包括一次真实的试验效应。

关于作者:罗恩·科哈维(Ron Kohavi)是爱彼迎的副总裁和技能院士,曾任微软的技能研讨员和公司副总裁。在参加微软之前,他是亚马逊的数据发掘和个性化引荐总监。他具有斯坦福大学核算机科学博士学位,论文被引证超越40 000次,其中有3篇位列核算机科学范畴引证最多的1 000篇论文榜。

黛安·唐(Diane Tang)是谷歌院士,大规模数据剖析和基础设施、线上对照试验及广告体系方面的专家。她具有哈佛大学的文学学士学位和斯坦福大学的硕士及博士学位,在移动网络、信息可视化、试验办法、数据基础设施、数据发掘和大数据方面具有专利和出书物。

许亚(Ya Xu)是领英数据科学与试验渠道负责人,曾编撰了多篇关于试验的论文,并经常在尖端会议和大学讲演。她曾在微软作业,具有斯坦福大学的核算学博士学位。

本文摘编自《要害迭代:可信赖的线上对照试验》,经出书方授权发布。延伸阅览《要害迭代:可信赖的线上对照试验》

引荐语:爱彼迎、谷歌、领英A/B测验领军人物编撰,亚马逊、谷歌、微柔和领英等公司互联网产品成功的诀窍!谷歌院士JeffDean、脸书首任CTO、沈向洋等37位专家引荐。本书依据近些年试验范畴的研讨成果和实践经历,对试验的办法和使用做了很好的全景式描绘,是一本统筹体系性的办法论和依据实战的经历规律的书本。