本文带大家梳理一下可用性测试的概念和研究方法,帮助大家做好可用性测试。
拓展阅读:
1. 什么是可用性?
可用性是衡量交互产品/系统质量的重要指标。指的是产品为特定用户用于特定目的时所具有的有效性、效率和主观满意度。
2. 什么是可用性测试?
通过观察有代表性的用户,完成产品中的各项任务,以洞察用户行为,界定出可用性问题。这是一种启发式的测试,顾名思义我们可以从中获得启发:用户可能怎么用我们的产品?有什么问题和不足?某个问题有多严重?都可通过这种小规模的测试给我们指明方向,一定会比自己空想要更加有效和客观。
3. 什么时候做可用性测试?
- 诊断问题:找到产品存在哪些问题,为什么存在这些问题。
- 验证设计目标是否达到:设计是否满足用户需求,用户是否以预设的方式来使用产品。
- 测试竞品的设计:与竞品相比,我们的产品有哪些优势和不足?
4. 测试需要多少名用户?
答:只需 5 名
根据尼尔森的数据模型,测试 5 个人可以发现 85%的问题。每次测试 5 名用户是效益最大化的做法,这也是行业建议的数量。
可能会有同学会问:
“用户样本这么少,结果靠谱吗,能具有代表性吗?”
答:要知道无论是哪一种调研方式,都存在一定的优劣和局限性。
可用性测试最大的优点就是高效和相对客观。只要通过严谨的调研方法,我们就能够用最少的时间成本获得具有一定可信度的用户数据。因此对于调研方式的选择,是取决于当下所面临的情况。可用性测试在产品快节奏的迭代中不失为一种优秀的解决方案~
1. 测试人员构成
选出 2 名成员做测试员,一名负责提问和引导用户,另一名负责记录和补充提问。
2. 用户招募
每次招募 5 名用户,对用户单独进行面对面测试。测试可通过线下或线上进行,但需要确保测试期间能够看到用户的使用界面。在招募用户前明确好测试目的,确保招募的用户为目标用户。
3. 测试提纲撰写
测试提纲对应的是我们需要收集的测试数据,可分为以下三部分:测前问题、情景任务、测后访谈。
测前问题
用于了解用户的使用习惯、偏好等背景信息。
提问范例
你多久使用一次[测试网站/类似网站]?
你最近一次使用[测试网站/类似网站],用来做了什么?为什么?
你觉得这个网站的体验如何?
你是否使用其他类似的网站? 分别有哪些?
请描述一下你通常是如何使用[测试网站/类似网站]的?
能否教我你用什么技巧去[检索/搜寻特定信息],例如:能告诉我你预订假期/买车的方法吗? 等等。
情景任务
这部分的问题是整个测试中最核心的问题,在撰写时注意以下要点:
- 清晰描述这个任务的情景/前提。
- 描述一个用户在真实生活中会发生的情况。
- 用大白话描述,切记不要使用专业术语/行话。
那如何写出一个优秀的情景任务呢?来看看下面的例子:
范例一
「原 版」
打开中国领事馆服务网,你能找到那个告诉你怎样申请护照的链接吗?
「优化后」
你的护照丢了,现在你需要办一个新的 — 去领事馆官网看看如何重办护照。
范例二
「原 版」
到京东买一个小猪佩琪玩具作为你女儿下周二的生日礼物。
「优化后」
下周二是你女儿的生日,你想送一个和她喜欢的卡通人物相关的礼物 — 看看京东网上有没有合适的。
测后访谈
对于测试中发现的问题、用户的使用感受与动机进行补充提问。
提问范例
有哪 2-3 点是你最喜欢的?
有哪 2-3 点最需要改进的?
你把这个产品推荐给朋友/同事的可能性有多大?[1 非常不可能 10 非常可能]。
你角色这个任务的难易程度如何? [1 非常困难 5 非常容易]。
你会怎么评价你使用这个产品的体验 [1 差评 5 好评]。
请用 3 个关键词形容这个网站。
1. 测试准备
测试开始前,请提前设置好相机,以记录用户使用产品的过程,以便后期回看。
切记测试中的记录也是非常重要的,因为从头回看视频是很浪费时间的,可以在记录时标记视频录制的时间点,以提高数据整理的效率。
2. 破冰环节
在测试开始之前,向用户介绍测试目的,并与用户交流,鼓励他们说出内心想法。你可以用到以下话术:
“这个测试是用来测我们产品的问题的,请你放心大胆提意见”
“你思考的时候可以直接把你的想法说出来”
“任务过程中我不会干涉你,但你如果遇到问题可以向我求助”
3. 测试期间
根据测试提纲进行提问,当发现用户在任务中出现问题时,可对用户进行引导或追问:
“你是怎么理解这个页面上的信息的?”
“你现在想做什么?”
“现在发生了什么?”
“你是怎么想的?”
“期望接下来发生什么?”
但切记不要说太多话打断用户,这部分主要是观察而不是访谈
测试中可以参考关注以下纬度的数据,以便在后续的报告中做量化的总结。
1. 效率
完成时间 (* 感知时间有时候比实际时间更重要)
点击次数
2. 效能
完成率
求助次数
错误次数
3. 满意度
测试后访谈
皱眉、叹气等身体语言的次数
不由自主发出的消极/积极评论
1. 任务完成率
可记录完成任务的用户数,从而得出任务完成率。
一般性任务的完成条件比较明晰,但也可以给部分任务定义成功标准,比如增加事件限制等。
2. 任务完成时间
任务时间即用户花费在一个任务上的时间,以往我们一般以均值的方式报告。可以配合任务完成率一起用~
对于小样本量(样本量小于 25),计算均值使用几何平均值最佳,比中位数和平均值有更少的错误和偏差。
3. 其他评估指标
评估有效性
任务完成率
错误数
需要帮助的次数
评估效率
任务完成时间
点击次数
评估满意度
皱眉,身体语言等
表达积极性/消极评价的频次
满意度量表(如:SUS 量表)
使用标准化问卷测量用户的主观满意度,推荐使用 (SUS System Usability Scale)软件可用性量表,适用于小样本量的场景。量表内容如下:
1. SUS 分数计算方法
分值转化:
奇数项(正面描述题),分值转化=原始分-1
偶数项(反面描述题),分值转化=5-原始分
SUS 量表总分=所有转化后的得分相加 X2.5(乘 2.5 之后变为百分值)
2. 注意事项:
- 在使用产品之后填写。
- 如果用户因为某些原因无法完成某个题目,那就视为用户在该题上选择了中间值。
- 不要更改用词,但‘系统’这个词除外,“系统”替换成“网站、产品”或产品自身的名字等,对最后的分值没有影响。
- 不收费,但任何公开出版的报告要对这个方法的来源致谢。
- 10 为易学性,信度系数 0.7;1、2、3、5、6、7、8、9 为可用性,信度系数 0.91。 所以也可以变为简版,去掉 4,10。
3. SUS 分数可以用来做什么?
用于评级
对应下图,可得出字母等级评级、描述性评级和可接受范围与 SUS 分数之间的关系,可助于向非专业人士解释 SUS 分数的结果。
① 字母等级:A级: ≥90分 ; B级: ≥80分;C级: ≥70分;D级: ≥60分;F级: <60分
② 描述性评级:完美(Best Imaginable): 100分; 优秀(Excellent): 85-99分; 良好(Good): 73-84分;合格(OK):52-72分; 差劲(Poor): 39-51分; 糟糕透了(Worst Imaginable):39分以下
③ 可接受范围:可以接受(Acceptable): 70分以上; 中立(Marginal): 50-70分;不可以接受(Not Acceptable):50分以下
百分制等级
除此之外,也可以将 SUS 分数换算成百分等级来解释,百分等级的意思是指测量的产品或系统相对于总数据库里其他产品或系统的可用性程度。比如 SUS 得分是 73 分,其百分等级大约为 67,意味着比大约 66%的产品可用性更好。
*这个表格是 Jeff Sauro(2011)通过 446 个研究,超过 5000 个用户的 SUS 反馈的数据库。这个基准数据也可以由内部团队制定。
量化过程可分为三步:
- 问题严重性评定
- 问题发生频率评定
- 计算优先级
1. 问题严重性评定:
列出测试中出现的问题,并分别打分——4分制,评定标准见下表(例:用户在某页找不到某功能的入口,这个问题导致了一个严重的挫折,严重性分值为3分)
*当多个用户表现得不一致时,若程度分最高的比例大于等于 25%则按最高分计算,小于 25%则按低级的分数计算。(例:某问题在 2/5 用户上体现为 4 分,在 2/5 用户上体现为 2 分,那就按 4 分算;如果在 1/5 用户上体现为 4 分,在 2/5 用户上体现为 2 分,那就按 2 分算)
2. 问题发生频率评定:
评估每个问题在总样本中发生了几次——4分制,评定标准见下表
统计表格格式参考:
3. 优先级评分计算:
优先级分数=严重程度分+频率程度分
故最高 8 分,最低 2 分
当然,文中介绍的是一种处理思路,大家可适当调整测试标准,使其更适用于实际情况。如进行加权处理,或是增加新的评定指标~
通过这些方法,可以将我们观察到的用户表现,转成量化的数据,使测试结果更加直观、具有说服力。快来试试吧
欢迎关注作者微信公众号:「ASAK设计」
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI绘画创意与实战
已累计诞生 655 位幸运星
发表评论 已发布2条
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓