6500字！深度分析AI搜索产品的发展重点和体验评价体系

前几天参加了阿里巴巴智能信息事业群和楚天都市报极目新闻联合主办的AI搜索产品闭门研讨会，结束之后又用了一整天时间把会议中我分享的内容编辑成这篇内容，和大家分享。

15000字干货！AI搜索产品如何做好用户体验设计？

最近在使用 360AI 搜索的时候遇到一个比较严重的产品设计问题，非常影响体验。

以下是正文：

无论是AI搜索还是传统搜索都是解决用户的需求，传统搜索只能解决需求过程的一部分，但其实也在为帮助用户完整的解决问题而努力，像一些简单的任务，查个股价、找个网站其实传统搜索产品已经可以很好的满足了，+AI之后这些任务的体验其实并没有提升，所以在讨论+AI之后搜索产品的变化的时候，要先明确+AI更多的是为之前那些无法被直接快速完成的复杂任务做出新的解决方案。

复杂的任务可以是找到一个复杂问题的答案、可以是得到一张要放在PPT里的图片，在面对这些复杂问题时，交互体验提升和服务范围延展将是两方面重点。

交互体验提升是说用户可以用更自由的方式与搜索产品互动，以前只能打字，现在可以是不同媒体类型、不同模态通道，服务范围延展是说以前我需要通过搜索产品找到一张图片，下载之后再用电脑上的PS工具处理细节、调整大小才能放到PPT，现在不需要了，用户可以在图片搜索结果中直接使用变清晰、抠图、调整尺寸等等能力，不需要再像以前一样在多个工具里辗转。

就像今天的会议，是先坐地铁再倒公交最后扫了个共享单车才到会场，还是专车直达，两种体验自然区别很大。

而越复杂的需求在解决过程中的体验给用户的印象会越深，就像在公司内部，能解决越复杂困难的问题的员工会得到更好的评价，这决定了这家公司是否继续聘请这名员工（用户是否选择使用某款产品）

一、用户如何选择AI搜索产品

人类在选择工具时会有一些规律，手机可以录音，但一个高频率做采访的朋友大概率会使用录音笔，大模型可以回答两个数字的计算答案，但用户更倾向使用计算机，用户在选择工具时会根据已形成的用户心智来选择产品。

用户心智的含义可以理解为用户认为面对某一问题时应该选择哪款产品来解决。

那么对于AI搜索产品来说，决定用户决策结果的因素是什么呢？我认为是一站式服务，即能让用户在更沉浸的状态中完整的完成任务。

这里的完成任务和传统软件中的完成任务区别较大，传统软件即使找到对业务非常熟悉的产品经理，依然是把实际业务中核心的、高频的需求做了数字化，就像现在很多ToB产品，客户经常要求做一些定制化的功能。这些定制化的就是某特定用户需要的但不高频的功能。如果提供一个标准化的SaaS产品这些需求就没有办法被满足，回到刚刚说的，就是任务无法完成。

而在今天大模型的能力恰巧能满足这些个性化的需求，包括在传统搜索产品中很多长尾小众的问题没有搜不到答案一样，大模型也可以解决这部分问题。

刚刚我提到的是能让用户在更沉浸的状态中完整的完成任务。这句话还有一个重点是在沉浸的状态中，沉浸的含义是不需要用户在多个产品中切换。

对比几个头部的AI搜索产品，我们其实会发现功能范围非常趋同，无非是图文音视频理解、总结与生成。这样就会有一个非常现实的问题，当用户面对总结一份文档的需求时，是会选择夸克这样的AI搜索产品还是WPS这样的文档处理类产品（WPS+AI也有相同的功能）。用户面对这两块产品时做出的选择决策，就是由用户过去形成的心智模型决定的。

因此，我认为在现阶段各个AI搜索产品的竞争过程中，抢占用户心智将是重中之重，因为各个产品（不限于AI搜索产品）具备的AI能力是没有很大差别的。在用户体验上也只能从较为表层的地方产生一些小优势。不会成为竞争的决定性因素。

今天在高铁站候车时偶然看到了豆包的广告，说是很多教英语的老师在建议学生使用豆包练习口语，昨天孙老师也提到现在很多用户在用豆包写公文。

这两件事启发了我，建立用户心智的过程如果是「豆包是新一代AI智能助手」这样的概念是很难的，因为太宽泛了，用户接受度会有问题。

相对而言更具体的概念更容易建立起用户心智，例如豆包练口语效果很好，豆包可以写公文。

一个细分的具体的心智被建立起来之后再在用户使用的过程中可以再逐渐做心智扩展。引导到【豆包是个全功能AI助手】这样的大概念，继而引导用户探索其他使用场景，完成更多停留时长的目标。

和传统搜索产品相比AI搜索的价值更多体现在解决复杂任务的场景下，那么解决复杂任务的搜索还是不是搜索？任务重点部分在哪里完成？用户操作的起点是搜索，但重点是后续服务。在观察了三款国内第一梯队的AI搜索产品后，其实我们也会发现这三款AI搜索产品的思路由明显区别。

这里先讲一下我主观感受中的国内第一梯队AI搜索产品，有三款分别是夸克、360和豆包。

6500字！深度分析AI搜索产品的发展重点和体验评价体系

夸克已经在产品名称中不再强调浏览器了，无论是PC还是安卓和苹果的应用商店完全看不到浏览器的概念。我猜测这可能与希望逐渐过渡用户心智有关。

360在浏览器领域积累最深，用户心智的就是浏览器，所以依然沿用了浏览器的概念，很早就打360AI浏览器的概念。这么做可以令他们把存量用户转移到AI产品中更加容易，但后续浏览器概念的转变会落后一分。

豆包则比较激进的直接使用了AI助手的概念，包括产品的图标也使用了一个人物形象来贴合助手的概念，好处是在AI助手这个领域抢占了先机，但同时也可以失去很多认知还停留在浏览器产品的用户。

下载了豆包之后，可以在系统级层面使用划词触发AI的能力，这一点是非常领先的，像莫妮卡等chrome插件的形式也仅仅是在浏览器层面，能够触发的用户场景相对于系统级还是少了很多。

这样来看的话，其实拥有更底层权限和可以更自由定义体验的操作系统其实可以把AI能力和用户场景结合的更好，但目前其实还没看到实际发布的产品，不知道是不是在憋大招，可以期待一下。

做AI搜索时有几点决策是比较牛的，第一是和客户端绑定，意味着体验更可控和留存有基础。把客户端下载到设备之后，也可以增加很多被用户看到的机会，这就和网站形态有很大的区别了。第二是淡化浏览器的概念，这个夸克和豆包已经在做了。

现在的 AI 搜索的产品形态只是一个暂时的一个形式，为了让传统搜索引擎用户，能够很顺畅地迁移到新形态的 AI 搜索上去。但是随着技术和产品的迭代，我相信新的交互形式、新的产品形式都会在 AI 搜索上展现。

二、AI搜索产品短中长期能力规划

6500字！深度分析AI搜索产品的发展重点和体验评价体系

短期

1、更多类型的图示。目前都支持了思维导图和PPT，但常用的其他图示如流程图鱼骨图还不支持，这方面的需求是非常明确的，作者在群里也看到过数次用户在清晰的描述这些需求。

2、更多媒体类型的输入输出。可以省去用户在输入环节手动转换不同模态信息的工作，可以在输出环节令信息的输出形态与环境更适应。

3、问题转写小模型，针对这种小模型的优化工作相对于提升大模型能力成本更低，需要时间更短，可以更快看到效果。

4、信息源选择规则。对问题分类后准确的选择来源可以明显的提升结果质量，例如做菜类问题的来源，写代码类问题的来源，没有什么技术难度，就是个信息整理的工作。

中期

1、信息源总量与输入token总量提升（基于模型大降价），目前的RAG过程会选择搜搜结果中的前X篇内容来进行聚合总结生成，根据信息源选择的规则可以基本做到拿到的X篇内容都是质量还不错的，但是万一某个优秀的观点出现在X之外，那么结果质量就会受到影响。

当未来token价格大幅度下降之后，可能在聚合阶段就可以聚合10X篇内容，这样就可以令结果质量更好。（结果质量是AI搜索产品最重要的体验指标之一）

2、多模态融合交互

不同模态的信息传递方式在人机交互中有诸多特点，视觉模态对信息的接收效率很高，可以以整体的角度认知大量信息的集合。也可以跳跃式的阅读文字信息，不像听觉一样完全依赖时间线顺序接收信息。但视觉模态不擅长输出信息，眼动交互的操作效率很差，即使以苹果公司的技术能力也只能作为一种辅助残障人群使用智能设备的辅助交互方式。

听觉模态则接收信息时具有被动性、环绕性、和瞬态性，在输出信息时则具有穿透性。被动性是指只要声波在用户周围产生了那么就可以被接收到，不需要用户主动寻找信息。

闹钟就是符合声音模态接收被动性的案例。环绕性则是相对于视觉模态而言，声音在人的任意方向产生都可以被人接收到，而视觉大约只可以接收130°的范围。瞬态性是声音在不依赖外部设备时是不可以留存的，用户只能在声音持续产生的过程中接收，声音停止接收也会停止，想再次接收只能再产生一次声音，这一特征相对于通过视觉模态接收文字信息劣势较大。

最后的穿透性则有两方面的含义，一是在物理世界内即使人与声音之间存在一定程度的阻隔，声音依然可以被人接收到。这一点相对于视觉模态可以适应不同场景下的信息接收方式。

穿透性的第二方面含义是在软件产品中可以不依赖屏幕显示出来的内容对功能进行控制，传统的GUI方式想进行一项操作，必须点击屏幕中显示的元素触发，没有显示出来的元素只能通过切换页面切换层级先找到再触发，而声音的穿透性可以直接被设备识别后触发对应的功能，不依赖屏幕可显示空间。

触觉模态则在安全感建立和真实感方面有较大影响，包括人类五感中另外的嗅觉和触觉，在今天应用到人机交互方面很少，可能在未来的虚拟现实产品中才能得到实际应用。

以上仅是介绍了多模态交互问题中各个模态的简单特点，实际上多模态交互最重要的部分是多模态融合，具体到产品中应用则是能解决用户在多任务场景下的交互带宽问题。

例如人类无法同时看清两幅画的细节，无法同时听清楚两首歌的旋律，这都是由于单一模态在交互过程中的限制，而使用多模态融合交互的方式则可以解决这个问题（有极限）。

例如传统的计算器，当用户按下按键时就会发出与按键对应的声音，【7】【加/减】【等于63】，用户在使用时可以用视觉模态看着账本、用触觉模态确认自己按下的按键，用听觉模态核查按键是否正确和接收计算结果。这样就可以利用多个模态协同的效果更高效的完成算账任务。

多模态融合交互的另一方面意义在于信息之间的转化和非文字信息，不同模态信息之间的转化意味着可用于回答用户问题的数据总量提升了。

例如用户问：北京XX书店有休息区吗？这样非常具体的问题以前需要依赖其他热心网友给与回复，但未来如果搜索引擎找到了一张北京XX书店的照片，照片内有休息用桌椅的话，就可以直接回答用户这个问题。

非文字信息是指情绪、语气、语速、停顿、重音等等（还有很多），同样一句话使用不同语气说出来可能意思完全不同，阴阳怪气是个很准确的描述词。

3、用户界面个性化。面对不同的问题，用户界面的显示形式可以完全不同，例如问题【小米14和华为mate60对比】就可以使用表格的形式来列举写明每一项参数的对比，而不适合用大段文字来描述。

网上很多文章中都有提到在回答不同问题时可以使用不同的agnet来回答促进答案质量，但答案生成后在UI设计角度如何呈现给用户同样重要，也是使用不同的agnet来回答促进答案质量的最终面对用户形式。

4、广告体验。广告与用户匹配越精准，广告的负面属性就会越低，未来当能收集到用户的信息维度变得更多，能保留的长期记忆（上下文）更多，传感器能接收到的超模态信息更多之后，广告的精准度一定会有大幅提升。即使是短期内来看，通过统一广告与自有用户界面的视觉样式，也可以获得更好的广告体验。

长期

1、从多模态到超模态。模态一词原指人类可以接收信息的通道，人的主要信息通道就是人的五感，过去的智能设备基本依赖视觉输出和触觉输入，后来逐渐增加了声音模态的输入和输出，但距离多模态融合的人机交互还有不短的距离，以一个非常简单的计算器APP为例，当融入多模态能力后，完全可以做到眼睛看着一堆账单，声音同时读出账单上的数字和计算方式，这样就不必来回转动头部在账单和计算器之间切换，同时还可以利用计算器带有的扬声器来检验输入是否有误。

多模态融合的交互方式就像是从一个人变成了一个团队，团队中有擅长方向的成员，视觉可接收信息速度最快，听觉则可以在360度的方向上接收信息，触觉能带给人安全感知，嗅觉和味觉可以接收更多维度的信息。团队中多个成员协同工作后就能面对更加复杂的工作任务。

多模态交互无疑是人机交互过程的进步，但更令人兴奋的是超模态，这个概念是我自己起的名字。人的主要信息通道（模态）只有5种，但对于智能设备来说则不然，对智能设备来说，有多少种传感器就有多少个信息通道（模态）。手机利用光强度传感器接收到环境亮度信息后可以做到自动调节屏幕亮度。手机OS融合了用户行为数据和时间、地点等信息后可以形成智能建议，变人找服务为服务找人。

AI搜索产品中有个非常重要的能力是意图识别，只有对用户意图识别的足够强才能在下一步意图与工具/内容的匹配时更加准确，而众多传感器传递聚合后的各种信息就是意图识别判断过程中的推理基础。根据湖北日报的新闻，全球传感器种类有2.6万余种，虽然这些并不都能够运用到产品设计领域，但相对于人类的5种已经不是一个数量级了，所以未来当智能设备集成更多种传感器（或从其他地方收到多种传感器感知到的信息）后，非常有可能实现从人找服务变成服务找人，即使是短期来看，也是对搜索结果准确性的重要增强，这意味着AI搜索产品最核心体验的提升。

模态一词原指人能接收信息的通道，人类常用的信息通道就是常说的五感，目前在与设备交互时又以视听触三感居多，但对智能设备而言，接收信息的通道可能比人类不是一个数量级的，设备集成了多少传感器就可以有多少种信息通道，也可以做出基于这些超越人类模态信息的数据的能力，例如手机基于光强度传感器可以做到自动调节屏幕亮度，基于GPS可以快速确定位置，都可以利用这些信息做到更智能的交互体验。

目前，仅基于用户行为数据和人的五种信息通道，已经可以做到非常智能的推荐策略，传感器的种类按照湖北日报的报道，全球共有26000多种，这与人类能够接收到的信息种类完全不在一个数量级（当然信息种类不会有这么多，有很多同类信息不同用途的传感器），但总体来说依然比人类五感的模态种类不在一个数量级。

所以作者认为，未来基于更多来源、更大数量的信息，AI搜索产品及全部需要意图识别能力的产品体验都会得到很大提升，甚至从意图识别进化到意图预测，变人找服务为服务找人（现在也有这个说法但实用性较差）。

2、定制化功能。有赞的白鸦总曾在一次直播中说他们的产品功能繁杂，做SAAS产品必然有很多定制化需求，所以当客户变多之后整个产品易用性会下降。

各种功能眼花缭乱导致用户真正需要的功能难以发现，其实当产品有1000个功能，一万家客户，可能每家客户需要的只有300个功能，因此未来使用大模型能力如果能做到功能的个性化那么对产品整体的体验会有很大提升。

3、用户记忆融合。为了更精准的识别用户意图，除了用户在产品中的行为数据外，融合用户本身的数据进行预测也是非常重要的一环，未来在不同产品中都必然用到用户本身数据来提供更好的服务，但不同产品用户数据是割裂的，所以掌握了用户数据的产品更容易达成优秀体验，或者也可能出现特定产品服务用户储存个人数据（长期记忆备份）。

持续

1、模型能力。不必多讲，需求之上一切服务的基础。

2、意图匹配。决定了精准度，决定了服务方式、匹配什么工具

3、智能体数量。决定了产品可服务范围，意图识别后能否有对应工具帮助用户解决问题。