在生活中,你有遇到过因手部受伤而无法方便地使用手机的经历吗?全世界有大约 10 亿残障人士,其中有 3-4 亿人存在肢体活动方面的限制。你了解过他们在日常生活中是如何使用手机等智能设备的吗?
对于肢体活动不便的人来说,通过语音控制操作智能设备至关重要。例如,在无法使用上肢的情况下,语音控制能让残障人士通过说话替代手操作智能设备,实现普通人所能完成的所有功能。
为有肢体活动障碍的人们设计无障碍语音控制体验有两点意义:
- 以人为本:一个好的产品应该具备包容性,做到人人适用,让每个人都能享受科技带来的便利。无障碍语音控制不仅让残障群体也能使用微信等日常应用,也为普通人提供更便捷的操作体验。
- 推动创新:语音控制设计推动了产品向多模态交互的方向发展,使用户能够通过语音、触控、手势等多种方式与产品互动,实现更加自然和灵活的交互体验。
语音控制是一种辅助技术,可让人们仅通过语音与设备进行交互。人们可以通过语音命令来执行手势、与屏幕元素互动、听写和编辑文本等。
Voice Control is an assistive technology that lets people interact with their devices using only their voice. People speak commands to perform gestures, interact with screen elements, dictate and edit text, and more.
——苹果开发者文档 ( Apple Developer Documentation )
在所有辅助功能中,无障碍语音控制属于「活动能力」类别。它是一种为肢体活动能力受限的群体设计的,用嘴说替代用手操作的交互方式。只需通过语音命令,例如说出「向下滑动」或「轻点发送」等命令,就能操作智能设备,达到与手指操作接近的效果。
语音控制是单次执行的——用户看到一个界面元素,说出一句命令,即可完成一步操作。人们第一次听说「语音控制」时,往往会将它理解为一种智能语音助手。但实际上语音控制无法理解你的语义和需求,也不能提供智能的对话式交互体验。它只能忠实地响应用户具体的操作命令。
1. 主流操作系统中的语音控制功能
目前,市面上主要有以下三套语音控制功能,他们的设计思路和功能是类似的,文章中主要以 iOS 的语音控制功能作为参考标准。
2. 基础概念
① 语音命令的构成
一般情况下,一句语音命令由三个元素构成:动作、目标和修饰。
- 动作:包括「轻点」、「打开」、「轻扫」、「滚动」、「前往」等命令。
- 目标:包括「发送」、「音量」、「W(键盘字母)」、「9(编号)」、「你好(文本)」等对象。
- 修饰:包括「两次」、「向上」、「到底部」、「三个」、「粗体」、「双指」等描述。
② 语音命令的类型
iOS 的语音控制命令可以分为四种类型:
- 设备相关。使用「静音」、「拍摄屏幕快照」、「锁定屏幕」等命令进行设备层级的操作;
- 系统相关。使用「打开控制中心」、「前往主屏幕」、「打开微信」等命令进行系统层级的导航;也可以使用「关闭语音控制」、「打开辅助触控」、「旁白选择<编号>」等命令联动其它系统级无障碍功能;
- 应用相关。使用「点击<按钮名>」、「滑动<编号>」、「将<标签 4>增大<4 档>」等命令进行应用层级的操作;
- 文本相关。使用「在<短语>两边添加双引号」、「剪切全文」、「将该内容设置为粗体」等命令进行文本层级的操作
响应模式
对用户语音指令的响应分为两种模式:作为命令执行、转为文本输入。
- 命令模式。用户的语音输入将作为操作命令响应。
- 听写模式。用户的语音输入将转化为文本输入。在英文系统环境中,还有「拼写模式」,让用户可以逐字符地输入。
在输入文字时,为了避免系统将用户想要输入的文字识别为命令,可以用语音开启「听写模式」,用户说出的所有话都会转换成文字输入。说出「命令模式」可以回到普通状态。
在部分特殊场景下,比如嘈杂环境中,为了避免系统误响应用户的语音命令,用户可以说「进入睡眠状态」,临时关闭语音识别。再通过说「唤醒」,来激活语音控制。
屏幕叠层
为了帮助用户更轻松、更准确地识别并选择屏幕上的界面元素,iOS 的语音控制提供了三类屏幕叠层:名称、编号和网格。
名称:将显示屏幕中可点击元素的名称。适用于控制图标和按钮。
命令:「显示名称( Show names )」
编号:将为当前屏幕内所有可点击元素加上数字标注。适用于选择朋友圈中的照片和名称冗长的元素。
命令:「显示编号( Show numbers )」
网格:将当前屏幕划分为网格,每一个网格有特定的数字编号。网格的数量和尺寸可以通过语音自定义,且每一个网格可以再分裂为更小的网格,以实现高精度的控制。适用于查看地图,甚至游戏等场景。
命令:「显示网格( Show grid )」
对于难以描述的元素(如没有文字的图标按钮、图片等)和需要更高精度操作的场景(如地图),可以借助屏幕叠层来快速找到想要操作的对象,并且可以通过说出编号或标签来进行精准操作。
屏幕叠层只是一种提示操作元素的辅助手段。在一种屏幕叠层开启的时候,用户也可以通过其它叠层的语音命令来进行控制。比如,在「编号」叠层开启时,用户也可以直接说出按钮的名称来操作。
在用户的语音命令无响应时,语音控制功能也会为用户自动切换更合适的屏幕叠层。例如,在相册页面中,用户说「轻点图片」,但有大量相同类型的元素名称都是「图片」。此时系统会切换至编号屏幕叠层,让用户再次确认操作对象。
反馈、提示和建议
在用户说出语音命令后,语音控制会通过屏幕顶部的 Toast 显示用户刚才说出的命令,通过视觉反馈让用户确认系统执行的命令准确。而在系统识别到了用户的语音命令,但却无法响应时,系统会用顶部 Toast 提示当前页面建议使用的语音命令。
自定义命令
对于部分高频或重复性场景,用户可以通过自定义命令来保存这些操作。例如,可以记录输入密码的手势,在锁屏界面时通过特定的语音唤起词来执行该手势,解锁屏幕。也可以记录自己的地址,通过特定命令去快速粘贴地址。甚至可以和快捷指令( Shortcuts )搭配,实现语音激活付款码、语音启动录音等。用户创建的自定义命令不仅方便个人使用,还可以导出并分享给无障碍社区中的其他人。
③ 语音控制和旁白( VoiceOver )的异同点
由于名字中都带有「语音( Voice )」,它们常被混淆。但其实语音控制和旁白是为不同群体设计的。语音控制主要服务于肢体活动障碍人士,而旁白则是为视觉障碍人士提供支持。
但两者在适配时存在一些相似之处。例如,开发时都需要为界面元素添加无障碍标签( Label )。在旁白中,系统会朗读这个标签,帮助用户理解按钮的功能。而在语音控制中,用户看到标签后,可以通过语音说出标签名称来操作对应元素。
此外,界面元素的无障碍属性——值( Value )、特性( Trait )和提示( Hint )——则适用于两者。例如,在旁白中,系统会朗读音量滑块的名称(标签)及其当前音量(值),而在语音控制中,用户可以通过语音命令调节具体的音量设置。
1. 设计原则
根据 WCAG 2.2 无障碍指导,我们可以基于四个基本原则设计无障碍语音控制体验。
- 可感知的( Perceivable ):内容必须能被用户通过各种感官感知。
- 可理解的( Understandable ):信息和界面操作应清晰直观,便于用户理解和使用。
- 可操作的 ( Operable ):用户界面的所有功能必须能够被操作,包括通过键盘等辅助工具。
- 稳健的( Robust ):内容应配合各种设备和技术可靠地工作,包括辅助技术。
2. 通用设计建议
舒适的界面密度。在显示屏幕叠层时,过大的界面密度会让名称和数字标签互相重叠,导致操作效率下降。
简洁、通用、符合直觉的元素名称。在适配语音控制时,我们需要为界面元素添加无障碍标签( accessibilityLabel ),也就是他们的名称。简洁的名称方便用户去朗读,而通用、符合直觉的名称能让用户不开启屏幕叠层就猜出它的名称。
避免界面元素与语音指令反馈条冲突。在系统执行语音命令后,屏幕顶部会短暂显示指令的具体内容。在设计时需要确保界面内的重要内容不会被它遮挡。
提供基础交互路径。为部分需要拖拽等高级手势才能完成的功能提供基础的交互替代。例如,在微信内将一篇文章加入浮窗,用户需要从屏幕左边缘滑动至屏幕右下角。这样的操作在语音控制中难以实现,因此,我们可以在设计时考虑补充一条更加基础的交互路径,轻点几步即可完成。
3. 设计屏幕叠层
① 名称叠层
在用户不清楚某个界面元素的名称时,会开启该叠层。名称叠层的设计思路和旁白( VoiceOver )的播报设计思路非常相似。
- 定义显示范围。不需要让界面中的所有元素都在叠层中显示。例如,分割线、蒙层和不可点击的页面标题等元素不需要在屏幕叠层中显示。
- 确保元素分组。将关系紧密的元素合并为组,这样能减少非必要元素的显示数量,降低信息阅读压力。
- 用页面内容作为名称。对于没有明确标题的界面元素,我们可以提取它的部分内容信息作为标题。例如,在邮件中,我们可以将邮件内容开头的前十个字作为名称。
② 数字叠层
一般情况下,数字叠层会将屏幕内所有可交互元素按照从上到下、从左到右的顺序标注。但在有连续数字排序的场景,例如日历、排行榜和拨号盘,数字标签会优先按照这些界面中的已有排序来排列。我们在设计时需要考虑,在这类场景下单独定义数字标签的排列顺序。
③ 兼容虚拟手势
语音控制默认的手势命令(向上轻扫、向下平移等)在实际应用中存在部分限制。
- 手势响应。虚拟手势模拟的是一个起始点位于屏幕正中央,48pt 大小的圆形接触面,它会向上下左右四个方向移动。在设计时需要注意,界面的滑动区域至少要包含屏幕中心 48pt 的范围,否则可能导致手势无法响应。
- 手势范围。虚拟手势运动的范围有限,它仅仅会运动 96pt 的距离。在设计时我们需要确保 96pt 的滑动距离能够顺利触发界面中的功能。典型场景是短视频中的「滑动查看下一条视频」、和社交媒体中的「下拉刷新」,它们往往要求滑动一段距离才能成功触发。如果不能成功触发,则需要开启网格叠层,使用更为复杂的「<编号>拖移到<编号>」命令。
- 手势速度。虚拟手势大致以 140pt/s 的速度运动,比普通人的滑动手势更慢。如果界面的响应对手势速度有要求,则需要额外注意。此外,手势也模拟了松手后的惯性运动。
语音控制和辅助触控 ( AssistiveTouch ) 、切换控制( Switch Control )、眼动追踪( Eye Tracking )等功能共同构成了为肢体残障人士设计的无障碍生态,已帮助了成千上万的残障群体享受科技发展的成果。
在过去,残障人士依赖外接控制按钮和切换控制功能配合完成对界面元素的操作。屏幕上会循环逐个高亮界面元素。当扫描框移动到了用户想要的目标上时,按下按钮,即可对目标进行进一步的操作,例如点击、滚动等。
图片来源: https://www.youtube.com/watch?v=HBo2BZ-Zzwg
语音控制则彻底解放对肢体的依赖,仅靠语音便可以控制整个屏幕中的内容。如今,我们的设备还支持了头部和眼部的跟踪,大幅提升了定位目标元素的效率。用户通过轻微移动头部或转动眼睛,便可以定位界面中的元素。再通过特定的面部动作(如张嘴、眨眼等)或是注视停留几秒钟便可完成点击等操作。
1. 依然存在的挑战
为肢体残障人士设计的辅助功能正在向着操作更轻松、执行更精准、入门更简单的方向发展。但现有的语音控制功能还面临着许多挑战。
- 兼容性弱。语音控制难以兼容不同口音、不同语速的用户。且在嘈杂环境中,系统无法准确捕捉用户的语音命令。
- 学习成本高。语音控制要求用户使用特定预设的命令去操作。用户需要提前学习大量的指令。
- 操作繁琐。语音控制只能一步步地操作,对于长流程的场景,体验会较为繁琐。
2. 未来的发展趋势
近年来,在人工智能的帮助下,用户能够通过自然语言和多模态输入与机器进行交互。机器也能以前所未有的准确程度去理解用户的意图,甚至是非常模糊的需求。我们在未来有希望看到以下趋势。
- 自然语言控制。用户不需要记住任何命令,可以用自然的语言去表达命令。例如,用户只需说出「点击屏幕下方那个绿色的按钮」或「帮我编辑一条朋友圈,说今天天气真好,顺便把刚刚拍的几张照片加上」,系统即可响应。
- 多模态输入。混合多种输入方式(如语音、视线、头部运动等)去操控设备。语音控制也可以搭配其它类型的无障碍功能使用。
3. 对普通人的意义
为情景式残障 ( Situational Disabilities ) 设计:在日常生活中,我们常常会遇到暂时的残障。手臂受伤时,操作设备会产生疼痛。下厨时,湿漉漉的双手会弄脏屏幕。驾驶时,伸手点击屏幕可能产生危险。这些场景下,我们也希望摆脱对肢体的依赖,用语音去控制设备。为残障群体设计,也是为普通人设计。
语音控制是肢体残障群体的日常生活中不可或缺的一部分,是他们与智能设备交互的基石。通过设计优良的语音控制体验,肢体残障人士能够获得与他人同等的使用权利和机会,我们也能深入了解他们的习惯和需求。我们希望有更多设计师关注并积极参与到无障碍技术的设计中,共同打造完善的辅助功能生态,让科技进步惠及各类残障群体,实现科技向善。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI时代的设计师生存手册
已累计诞生 670 位幸运星
发表评论 已发布1条
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓