编者按:从 KPI 到 北极星指标,设计和产品团队都非常着迷这种杀手级关键性指标。但是沉迷这种单一指标可能会带来负面的影响,这就是 NNGroup 的这篇文章 要探讨的「坎贝尔定律」:

前言:当牺牲其他指标来作为代价来优化某一指标的时候,就可能存在面临这一指标劣化的风险。就像 Facebook 的丑闻所呈现出来结果那样,最终的结果可能是同时辜负了他们的用户和原本的商业目标。

在科技和商业领域当中,最经常被错误引用的一句话就是「如果你无法衡量,就无法管理」。类似这样的表达方式,通常意味着如果你需要改进某个产品、某个功能,就需要制定一个精确的度量来捕捉和跟踪,让我们确定改进的效果。

实际上我们经常做这样的事情,比如用单一KPI来衡量某个产品的成功与失败,用某个参数来作为核心指标等等。

Facebook 被上亿人指责的背后,可能是因为坎贝尔定律

有趣的地方在于,这句话的引用其实和原文的含义是完全相反的:

「假定一件事物无法度量就无法被管理,这种想法是错误的,实际上它更像是一个代价高昂的迷思。」—— W. Edwards Deming (The New Economics).

原始的版本和我们经常听到的说法之间差异,实际上反映出了一件事情:依赖单一指标来评估某项业务是极为危险的,因为存在一种或者多种操控这一指标的方式,而这些方式可以和原本度量毫无关联。而这正是「坎贝尔定律」所描述的现象。

坎贝尔定律:如果一种指标在制定决策的时候越重要,就越可能被操纵。

用更加通俗的方式来描述坎贝尔定律就是,当使用单一指标来决定某个事物的成败的时候,人们可能会尝试优化自己的行为来贴近或者「塑造」这一指标,而这种试图「贴合结果」的方式,最终会带来荒谬和危险的结果。这种行为可以说是在「管理指标」(更通俗的说法是「制造数据」),而不是真正解决潜在的问题。

一个经典的案例其实就是「应试教育」——参加过任何标准化考试的人应该都清楚这件事情,而针对 SAT 或者 GRE 这类标准化考试的批评者一般也是拿这个来说事儿——这类考试无法衡量知识和潜力,更多的是衡量个人为考试而学习的能力。

而在法律领域,同样有类似的定律,古德哈特定律——「当某项措施本身成为目标的时候,它就不再是一个好的措施」。而有意思的是,无论是坎贝尔定律还是古德哈特定律,都出自于社会科学领域的研究者,他们能够提出这两个定律,很大程度上,是当大家面对复杂行为的时候使用单一指标来替代全面细致的权衡剖析这一情况的沮丧。

日常工作中的坎贝尔定律

在我们日常生活和工作中,能够找到大量关联到坎贝尔定律的「反向激励」的案例。

医疗行业中的患者等待时间

医疗和保健行业通常对于各项指标非常的着迷,有时候甚至会达到荒谬乃至于有害的程度。接下来要说的,是一个在医疗机构工作的护士所分享的案例。

这个医疗保健机构有一项绩效衡量指标,是患者在接听电话的时候必须等待多长时间。这一机构的员工被推动改进这一指标,试图尽量减少患者等候的时长,从这一出发点来看,这个指标和目标是合理的,对不对?

其实,患者长时间等待,主要的原因是接线员需要时间来沟通和联系患者对应的医生活在护士,并且在连接上之后,接通他们,而当接线员将线路切换到医生线路的时候,患者的电话会切换进入「等候状态」。而有一位经理发现,如果接线员在接通电话,获得患者需求的时候,不让电话切入「等候状态」,而是单纯的静音处理,然后让接线员直接去对应的科室去找到医生,那么在技术上,这个「等候状态」时长指标直接就为0了。

实际上,这位经理因为这一指标的「优化」二获得了大量的奖金,很多同事都会向他请教如何改善这一指标的。

然而实际上,他的这种处理机制对于用户体验而言,基本上是 0 优化,毫无提升,甚至有可能因为需要接线员亲自去接洽导致患者实际的等候时长比计划中更长。

Facebook 被上亿人指责的背后,可能是因为坎贝尔定律

评分挟持

如果你使用过诸如 Airbnb、Uber 这类服务,那么你很有可能会在这个过程中感受到坎贝尔定律的力量。这类服务通常会使用 5 星评分制,用来评估用户的满意度,如果司机或者房东的评分低于某一阈值,可能就会被关闭继续运营的权限。因此,通常而言司机和房东都会尽量提高高质量的服务,但是与此同时,他们还会以各种方式来尽力请求/要求客户来他们打满分来操纵这一指标。

比如我的同事最近使用了 Airbnb 的服务,在结束后收到房东的细心你:

「如果你喜欢这套工具并且愿意留下 5 星评价,那么这对我将会有极大的帮助。Airbnb 实际上有权限删除评分低于 4.4 星的房源,因此每一次 5 星评价对我而言都会有极大的帮助,能够让我更好地服务于同您一样的优质住户。」

通过这种解释,房东以一种相对柔和的方式向我的同事施压,要求她给出五星好评,而不是诚实的评价。

这种基于情感上的评分挟持在很多不同的国家和文化中都会发生。最典型的一个案例是中国的热门购物平台上,用户经常会「被迫」提供高分评价。许多淘宝商家会要求客户提供五星好评,其中最常见的方式是提供好评优惠券和好评返现,甚至还催生了专门骚扰差评用户的服务,同样也诞生了专职的「差评师」。

设计领域的坎贝尔定律

虽然坎贝尔定律影响了很多行业,但是在数字设计领域显得尤其「邪恶」。

流媒体服务

下面的故事是由一名产品设计师所分享的。由于她想匿名,所以以下将会使用化名 Keily。Keily 供职于一家目前地位领先的一家流媒体服务供应商,她分管的业务为订阅服务。尽管这家公司提供的服务颇为现代,但是该公司的企业文化和旧有的有线电视台非常接近,这一点主要体现在他们的业务指标上。

这家公司非常关注用户的留存率——订阅者订阅的时间越长,这家公司所赚取的利润就越高。因此,这家公司的领导层认为减少用户取消订阅的比例,能够保持利润增长。

Keily 注意到一些奇怪的设计,当用户打算取消流媒体服务甚至注销账户的时候,这个帐号就会进入一种名为「Saving」(留存)的状态,在这种情况下,用户并不会彻底注销帐号。这种设计的方式,旨在让用户停下来,三思之后再做决策。原本想借助这个指标来细分和判断用户的特征和属性,但是它在实际应用过程中产生了令人意想不到的后果——它促使公司的设计师让注销帐号的过程变的极其不友好甚至非常困难。

在进行用户测试的是,Keily 注意到用户在尝试取消服务和注销帐号的时候,时常会进入不知所措的状态,随后放弃注销甚至会因为麻烦干脆连取消服务都放弃了。而这些帐号随后就被划分到了「Saving」这个分类当中。然而实际上,这些帐号最终也没有留存下来,因为用户嫌线上注销太麻烦了,直接打电话给公司来注销帐号。

最后,这个看起来不错的「设计」是以闹剧收场的:
因为这一恼人功能而生气的用户,绝对不会向其他的任何朋友推荐这家公司的服务了
对公司而言,成本更高了。因为用户不再在线注销帐号,导致电话服务这边更加忙碌,成本了相应的服务成本和支出。
用户仍然注销了账户,那些所谓的留存帐号也没有留存下来。

Keily 试图将这一问题反馈给公司的高层,她争辩说只有公司试图站在用户的角度来解决用户的问题,用户才能真心实意地认可公司,相反使用提高注销成本的方式来降低取消订阅率,用户只会更加讨厌这家公司。领导层不想听她的说法,所以 Keily 直接辞职了,并且前往一家用户体验设计上更加成熟稳妥的公司工作。

痴迷参数指标的 Facebook

Facebook 对于如何增加产品的参与度有着相当程度的痴迷。当然 Facebook 这个案例这也是近年来最值得研究的案例之一。

正如同 Frances Haugen 在报答中所写的那样,Facebook 的企业文化非常重视激励用户提升中在 Facebook 平台上的参与感,根据 Haugen 的说法他们是「基于这一指标来作出决策」。公司的领导层将日活跃用户量(DAU)置于伦理和道德的优先级之上。

根据他的说法,Facebook 的领导层喜欢使用算法来增加 DAU,即使有证据表明这样的做法对于用户上有害的,Haugen 指责 Facebook 以用户本身的身心状况恶化为代价来提升 DAU:

  • 培养用户成瘾性的习惯行为
  • 导致青少年饮食失调
  • 增加极端政治性的内容
  • 传播谣言

尽管 Facebook 并没有真正伪造或者操作 DAU 指标,但是不惜一切代价地为了维持指标,而摒弃原有的意图,哪怕以牺牲用户和公司本身的健康为代价。即使 DAU 的数据并没有伪造,但是背后的逻辑和状况都是完全契合坎贝尔定律的——痴迷于指标以至于扭曲抵达目标的手段和方式,在这种情况下,它直接牺牲了用户体验和长期价值。

Facebook 是一个极端的案例,由于它的受众规模极大,当公司出现这种痴迷指标牺牲体验的时候,带来的后果和影响是极为可怕的。但是这是整个设计领域和科技行业当中普遍的存在,类似的情况比比皆是。虽然绝大多数的公司和产品并不会遭受 Facebook 这种规模的道德责难,但是这种广泛存在的问题依然会带来灾难性的结果。

如何避免指标痴迷带来的危险

UX 行业从业者总会不可避免地面临这个问题。那么要怎么规避单一指标痴迷所潜藏的危险呢?

首先,要认识到一件事情,任何一个指标,在全面而准确地描述整个世界的能力上,都是极为有限的。你所关注的每一个指标,都反映了你认为重要的事物。

你所选择的指标就是你所寻求的目标和结果的信号,它们并不能反映整个全貌。不能因为指标本身可以量化就认为数据一定是准确没有偏差的,因为数据的搜集过程哪里都可能出现问题。

之前一直流行的「北极星指标」就是典型,它放大了单个指标的影响力,同样也放大了单个指标的危险,给整个产品甚至公司带来潜在风险。

其次,将多个指标整合到一起,更加全面地对你的产品、服务进行评估。满意度评级可能是一个有用的指标,但是如果能够将它同行为指标(比如任务时长、成功率等)或者其他的分析指标结合起来使用,能够更加准确地判断。想玩弄扭曲一个指标有时候不复杂,但是想要修改全部指标就很难了。

第三,永远不要仅仅依靠单一指标来进行决策。确定定性指标需要进行多方验证,比如使用用户访谈、可用性测试、实地测量和日记研究等方式共同决策,这可以帮助你了解设计决策的细微差别,否则,如果你仅仅依靠被动搜集的分析数据,可能会错过很多关键的信息。

最后,将数据视作为辅助决策的工具,不要让单一数据成为决策的唯一依据。不要为了树木失去森里,密切关注真正重要的是事情——长期积极的用户关系,帮助用户增加价值,不去损害用户的生活,让产品成为用户真正的帮手。

结语

定量指标对于设计而言确实是非常重要的。但是牺牲一些其他指标来有意识「优化」单一指标,可能会让业务和用户双双受到影响。以上的案例都证明了将短期利益置于长期用户关系之上带来的负面影响。

收藏 11
点赞 10

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。