在网站上进行A/B测试的例子。通过随机为访问者提供两个仅在单个按钮元素设计上不同的网站版本,可以衡量两种设计的相对有效性。
A/B测试(也称为桶测试或分段运行测试)是一种用户体验研究方法。A/B检验包括有A和B两个变体的随机试验,包括统计假设检验或统计领域中使用的“两样本假设检验”的应用。A/B测试是一种比较单一变量的两个版本的方法,通常是通过测试受试者对变体A和变体B的反应,并确定两种变体中哪一种更有效。
概述
A/B测试是一种简单的随机对照实验的简写,即比较单个矢量变量的两个样本(A和B)。除了一个可能影响用户行为的变量外,这些值是相似的。A/B测试被广泛认为是控制实验的最简单形式。然而,通过向测试中添加更多的变量,它的复杂性就会增加。
A/B测试有助于理解用户粘性和在线功能(如新功能或产品)的满意度。像linkedIn、Facebook和Instagram这样的大型社交媒体网站使用A/B测试来让用户体验更成功,并将其作为一种简化服务的方法。
今天,A/B测试也被用于对用户离线时的网络效应、在线服务如何影响用户行为以及用户如何相互影响等主题进行复杂的实验。许多职业使用来自A/B测试的数据。这包括数据工程师、营销人员、设计师、软件工程师和企业家。许多职位依赖于来自A/B测试的数据,因为它们允许公司了解增长、增加收入和优化客户满意度。
版本A可能是目前使用的版本(从而形成对照组),而版本B在某些方面比A进行了修改(从而形成治疗组)。例如,在电子商务网站上,购买漏斗是a /B测试的典型候选,因为即使边际下降率也可以代表销售的显著增加。通过测试文本、布局、图像和颜色等元素,有时可以看到显著的改进,但并非总是如此。在这些测试中,用户只看到两个版本中的一个,因为目标是发现两个版本中哪个更好。
多变量测试或多项测试类似于A/B测试,但可能同时测试两个以上的版本或使用更多的控件。简单的A/B测试对于观察性的、准实验性的或其他非实验性的情况是无效的——调查数据、离线数据和其他更复杂的现象是常见的。
有些人认为A/B测试改变了某些细分领域的哲学和商业策略,尽管这种方法与学科间设计相同,而这在各种研究传统中都很常见。A/B测试作为web开发的一种哲学,使该领域与更广泛的循证实践运动保持一致。A/B测试的好处在于它可以在几乎任何情况下持续执行,特别是现在大多数营销自动化软件都具有持续运行A/B测试的能力。
常见的测试数据
“两样本假设检验”适用于比较两个样本,其中两个样本在实验中被两个对照病例分割。z -试验适用于在关于正态性和已知标准差的严格条件下比较平均值。学生t检验适用于在宽松条件下,假设较少的情况下比较经济状况。Welch's t检验的假设最小,因此是两样本假设检验中最常用的检验,在这种检验中,一个度量的平均值被优化。虽然要优化的变量的平均值是最常见的估计器选择,但也经常使用其他估计器。
要比较两个二项分布比如点击率我们可以用Fisher精确检验。
挑战
2018年12月,来自13个不同组织(Airbnb、亚马逊、Booking.com、Facebook、谷歌、linkedIn、Lyft、微软、Netflix、Twitter、Uber、Yandex和斯坦福大学)具有大规模A/B测试经验的代表参加了一个峰会,并在SIGKDD探索论文中总结了最大的挑战。这些挑战可以分为四个领域:分析、工程和文化、与传统A/B测试的偏差以及数据质量。
历史
与大多数字段一样,为新方法的出现设定日期是很困难的。第一个随机双盲试验发生在1835年,目的是评估顺势疗法药物的有效性。与现代A/B测试相比,广告活动的试验开始于20世纪早期。广告业先驱克劳德·霍普金斯(Claude Hopkins)使用促销优惠券来测试他的宣传活动的有效性。然而,霍普金斯在他的《科学广告》中描述的这个过程,并没有包含统计显著性和零假设等概念,这些概念用于统计假设检验。评估样本数据重要性的现代统计方法也在同一时期分别发展起来。这项工作是由William Sealy Gosset在1908年完成的,他改变了z检验,创建了Student的t检验。
随着互联网的发展,对人群进行抽样的新方法已经成为可能。谷歌的工程师在2000年进行了第一次A/B测试,试图确定在其搜索引擎结果页面上显示的最佳结果数量。由于缓慢的加载时间导致的故障,第一次测试没有成功。后来的A/B测试研究将更加先进,但基础和基本原则一般保持不变,2011年,在谷歌第一次测试11年后,谷歌运行了7000多个不同的A/B测试。
2012年,负责搜索引擎微软必应(Microsoft Bing)的一名微软员工进行了一项实验,测试不同的广告标题显示方式。在几个小时内,这种替代格式产生了12%的收入增长,而且对用户体验指标没有影响。今天,像微软和谷歌这样的公司每年都进行超过1万次A/B测试。
现在很多公司使用“设计实验”的方法来做营销决策,期望相关的样本结果可以提高正向转化结果。随着工具和专业知识在该领域的发展,这是一个越来越普遍的实践。