本书是一本由拥有17年从业经验的资深语音用户界面设计(VUI)系统设计专家Cathy Pearl撰写的语音设计经典,从VUI系统简史开始讲述,包括了语音用户界面设计的基本原则,VUI系统设计中必不可少的人物模型设计,还包括一些语音用户界面设计的进阶知识,如语音识别技术,自然语言理解、情感分析、数据收集和文本语音转换策略等,另外还介绍了语音界面用户测试的知识,以及VUI在投入实际使用后需要注意的地方,特别提到了包括家庭助理设备和可穿戴设备等如何设计VUI系统。
下一代颠覆性的人机交互入口——语音界面设计经典!!
推荐序一
我在用半语音、半打字的模式写下这段文字时,联想到语音用户
界面的发展与互联网技术的发展非常类似。
在互联网时代来临之前,用户界面是以Windows 为主的GUI,当
用户需要工作、娱乐和游戏的时候,就购买相应的软件,安装后
才可以使用。当时大部分的设计和研究方法都集中在独立程序上。
大概在1998 年,拨号上网时代结束,Web 浏览器在功能上的完
善让大家的眼光开始关注到互联网上,那时Amazon 刚刚有了
百万用户,WebVan 和Pets.com 正在蓬勃发展( 这两款应用目前
均已消失)。各种产品开始转向互联网,因为Web 浏览器可以穿
透各个程序,方便地把各种各样的内容和功能都呈现在前端页面
上。之后,互联网给整个IT 行业带来了深刻的变化,独立程序渐
渐消失,取而代之的是在浏览器界面中的应用。
到了移动互联网的时代,一轮新的程序开发又开始了。App 像雨
后春笋一样涌现出来,满足用户在娱乐、游戏、工作等各个方面
的需求,由于移动屏幕尺寸和网络速度的限制,单单使用一个简
单的移动浏览器不能解决所有的问题。
语音和当年的浏览器一样,是一个可以穿透所有程序、解决用户
所有问题的方法。当需要叫车服务的时候,我并不在乎是哪个软
件在叫车,最好的情况是语音发出后,通过各个应用的比较,找
出一个最佳的路线,并且最符合我使用习惯的叫车方案。
语音是人类古老和自然的交互方式,在人工智能发展到可以部分
理解语音的时候,语音时代开启了。语音除了在娱乐、游戏、工
作上有广泛应用,还会广泛应用在IoT 上。越来越多的设计师的
工作会涉及语音界面设计。这本书的作者Pearl 把自己17 年的工
作经验总结出来,介绍了语音界面的设计原则、语音识别技术、
自然语言理解、语音用户研究方法,以及语音在设备上的应用。
理论和实践相结合,非常实用!
这本书是天猫精灵设计团队的参考书之一,在使用过程中发现这
本书非常有用,因此我们的设计师一行花时间把整本书翻译成中
文分享给大家。
Paul Fu
Sr . Director, User Experience, Alibaba Group
推荐序二
一行嘱我为他翻译的书写序,还没有看过是什么,我便欣然同意了。
一行曾是我的学生。学生时代的一行就成熟得不像他的年龄。在
初期时我对他说,“小心技术过于成熟而落入俗套。”事实证明我
是错的。一行最大的特点是冷静并特立独行。每次问他问题,他
先是沉默,想好后可以很缜密地回答,往往挑不出什么漏洞。基
于这样的经验,之后的合作我便选择完全地相信他。所以我想一
行精心挑选翻译的书籍,一定不会差。
一行陆续给我寄了原稿和翻译稿,我读后有一些感想:
交互方式正从单纯的视觉、硬件交互转化为多感官综合的交互。
每一次技术的变革都带来交互上的巨大挑战。“与机器像和人一样
对话”,VUI 不是一次升级,而是一个完全不同的新世界。这个
世界正在来临,但又还有很多未知;这个全新的体验正呼之欲出,
等待人们去定义。
VUI 感性层面的需求比视觉交互和硬件交互更为复杂。除了合理的逻辑之外,场景、对话的上下文关联、角色的设定、语境的
感知等都对用户体验起到了重要的作用。VUI 像是给机器赋予
一个新的性格。在这个领域也将产生不同的人才需求。最近遇见
Dyson 的设计师,他称自己为工程师,并解释他自己也不知道自
己是什么样的定义,只知道伴随了产品整个的研发流程。在VUI
领域,同时需要被打破的职业界限,需要更多元的职业类型介入
去共同定义。他们可能是设计师,是开发者,是语言学家,是心
理学家,是剧作家,等等。
最近我买了Amazon Echo, 女儿每天早上向Echo 问好。Echo 没
有屏幕,环转的灯光非常友好地展示了拟人化的倾听。我意识到
VUI 已经来了,它很聪明,但是又还很鲁莽;它让人兴奋,但又
时时给人带来与机器对话的挫败感受。哪怕产品很智能,一个不
好的VUI 就像是一个聪明人无法倾听和表达一样无奈。在这个技
术与设计并行发展的进程中,VUI 还处在一个很早期的状态,会
有很多令人困扰的问题:怎样的设计流程可以支持这个新的领域?
VUI 和屏幕交互是什么样的关系?什么样的场景最为适合?机器
需要有什么样的性格? 如何管理用户的期望值?如何弥补对话中
带来的挫败体验? 交互过程中的情感感受将会怎样?……
VUI 领域还没有太多的经验可以参考,设计教育界也还没有做好
足够的应对,而这是一本来得如此及时的、难得的、实用的工具书。
一行告诉我,书的内容只是一个开始,希望读者通过此书能开启
一个全新的思考。
刘力丹
designaffairs 合伙人、小猴科技创始人兼CEO
推荐序三
从软件工程转到工业设计专业,现在又在从事交互设计的工作,
王一行一直是一个在自己喜欢的方向上执着钻研、追求完美的学
生和设计师。当以往的学霸和红点得主来找我为他的译著写序时,
我很是欣喜。非常钦佩一行哥(同学中的昵称)在阿里繁忙的工
作之余还能挤出时间来学习新知识,并有心布道语音交互界面设
计这一交互设计的新成员。
作为一种自然人机交互方式,语音交互由来以久,近年来更是被
运用到了越来越多的产品之中,如从手机到智能产品、智能家
居,从机器人到车载HMI。然而对语音交互的设计方法、流程,
以及对其特有的设计问题的研究却非常匮乏。15 年前在IBM T.J.
Watson 参与基于对话的语音交互系统的研究与应用实践,到现在
进行多模态车载HMI 的设计中,我大都是把语音交互作为交互
系统中的一个重要元素加以运用。本书将语音交互作为一个与视
觉交互界面(GUI)并列的界面类型,对其设计进行系统地分析、研究与实践指导,视角新颖,为对语音交互设计的深入研究打开
了一片天地。相信一行精准到位的翻译可以将大家完美地带入这
一交互设计的新领地。
孙效华
博士、教授、博士研究生导师
同济大学设计创意学院副院长,交互设计方向负责人
数字创意中心负责人
推荐序四
当很多人正在热议AI 究竟是会帮助人类还是毁灭人类的时候,人
工智能的浪潮正在悄然颠覆着我们生活的一点一滴。而基于CUI
(Conversational User Interface,对话式用户界面)的智能产品,
就好像是冲在AI 浪潮最前沿的浪花,将隐藏其身下的算法和数
据幻化成最能“直接拍打在用户皮肤上”的体验。作为一个新生
的领域,VUI(Voice User Interface,语音用户交互界面)对于用
户体验设计提出了更多语言学、情感塑造、逻辑搭建等方面的新
要求,于是这样一本专业、全面的VUI 设计指南的出现,就更显
得弥足珍贵。
我在第一时间就和我的团队一起精读了英文原版,受益匪浅,相
信中文译本的出版一定会帮助更多的共同前行的伙伴,受邀作序,
备感荣幸。
就在我敲下这些文字的时候,大多数行业从业者都激进地把人工
智能在人类历史上的重要性堪比、甚至远超过工业革命,很多人正担忧人工智能即将陆续取代一些职业并改造我们的社会化分
工。我认为有一点是毫无疑问的,这是一个不可避免的智能时代,
作为新生产工具的AI,除了在限定技术边界的垂直行业应用领域,
各行各业都有机会被AI 力收割“low hanging fruits”来迅速提升
各类生产效率,将对人类文明和产业变革产生重大影响。
回顾过去,机械设备的出现为人类带来了提升效能的工具,互联
网的出现,将效能再次提升,而伴随着AI 的出现,效能将进一
步大规模提升。不可避免地说,在智能时代,大量重复性工作的
人力工种肯定不复存在,还有很多具有结构化知识的经验性工作
也会被机器智能所取代,甚至未来是创造性工作,但是更多的是
通过为人赋能的方式,减轻社会劳动者和服务业的压力,将会重
新进行一轮人类社会化分工。
在互联网时代,“连接”是核心关键词,如果C 不能满足A 和B
的完整需求,那互联网有机会让A 通过连接,跨过B 和C 直接找
到D,但如果在一些场景和行业内B/C/D 是稀缺性资源,那么这
个情况在互联网时代就很难得到解决,AI 的出现将有机会扭转这
种供需关系。举例来说,以前用户看病花在预约和挂号的时间基
本占到95%,真正用于医患有效沟通和问诊时间仅为5%。人工
智能将代替以往所谓“互联网医疗”盲目且低效的连接,如VUI/
CUI 初诊问答机器人将患者进行分流,缩短医师护士等在预约和
问询过程低效的重复时间,改善供需方的不对等关系。
大家都知道过去60 年里人工智能经历了两次潮起潮落。现在我把
这次AI 的兴起,分为新AI 时代的头十年和后十年。前十年是AI解决行业问题,比如前面讲的医疗、教育、信贷和金融风控等,
通过大数据和机器学习迅速提升效率和准确率;新AI 时代的后十
年,机器智能将全面升级消费产品和用户生活场景,人工智能必
将革新交互方式,进入计算无处不在的时代。下一代人机交互革
命就在眼前,这将是一个激动人心的时代,就好比百年前蒸汽机、
汽车、飞机等伟大产品的发明一样,如今将会出现大量被重新定
义的智能产品,无人驾驶车、智能家居、家用机器人、下一个时
代的个人助理等。当马车被汽车替代的时候,人们是措手不及的,
同样的,AI 时代的创新家们已经蓄势待发准备重新发明和改造今
天陈旧的生活方式了。
我觉得赋能是人工智能对人类最重要的事情,因为这是人类进化
需求的本质。人都渴望被赋能,这是天性。人发明蒸汽机、汽车、
飞机、手机、计算机,从运动能力和生产效率等方面突破自身局限。
大部分人沉迷于游戏,是因为在游戏中感受到自己被赋予了更大
的权利和能力。这些都是顺应人性的事情,我觉得VUI 最有价值
的场景应用就是在人机交互过程中产生的便利性赋能。
无论是从云端到边缘在下一代硬件架构的变化,还是深度学习算
法在图像识别和语音识别的单项上逐渐超过人类水平,AI 的技术
成熟度还在不断提升和进化过程,但是今天语音对话交互技术的
发展尚还没有成熟到可以替代鼠标键盘和触摸屏。不过现阶段已
经可以应用在一些特定场景下,比如用户双手不便下达快速指令、
智能电视或者智能音箱上的跳步检索某一首歌或者某一个电影关
键词,又或是实时机器翻译。但可以肯定的是,未来无处不在的AI 技术,必将带来交互的革命,颠覆的机会,也将属于那些极少
数懂得技术边界、极具场景化思维、勇于革新的创新家们。
2016 年,我和志同道合的小伙伴们一起创立了“物灵”。在工具
化大工业产品思维主导的今天,我们希望去开辟另外一条路径,
去创造人机共生的灵性世界。我们认为,人和产品的关系,在这
个万物智能的时代,正在发生着巨大革新。我们经历了电器设备
旋钮时代、键盘鼠标时代、触屏智能机时代,而现在万物智能时
代的到来,很快就会将我们从鼠标键盘和低头点手机平板的触摸
屏上解放出来,机器与人的交互会从不平等的单向被动模式转变
为逐渐平等双向的多模态主动模式。而语音交互正是这个过程的
第一步。我们认为这种互动模式的本质就是“关系”。我们把这
种“基于关系的交互方式”称作Relationship UI。物灵想要做的
“智能/ 关系式交互”产品,不单单是计算机视觉、自然语言理解、
深度学习、大数据等这些正在不断突破的AI 技术的集合体,更
加是一个让用户能体验到生命感,产生依赖,寄托情感的“灵物”。
这本书里提到的Jibo 机器人,正是Relationship UI 的一个很好的
例子。我作为Jibo 的董事长,物灵作为Jibo 在中国的独家合作伙
伴,我们和MIT 的Cynthia Breazeal 的团队也正在一起努力把这
个可爱的小“灵物”带给中国的消费者。
当语音交互、智能匹配和个性化推送成为新一代用户的主流交互
方式的时候,苹果构筑的那个以一个个各自为阵的App 为核心的
生态才能再一次瓦解——从移动互联到智能物联的转变,我们将
经历Contextual UI 取代Selective UI 的产品形态。
而想要真正构建好这种产品和用户之间的“关系”,VUI 无疑是
最重要也是最自然的交互通道之一。在创业初期,我们的VUI 团
队一直在摸索如何设计对话内容和逻辑,创造Character,优化体
验。不同于传统的GUI,由于缺乏系统性的指导和总结,我和团
队做了很多的尝试,也走了很多的弯路。这本书的出现很好地帮
助我们理清了VUI 相关的基本框架和设计规则,而其中的很多观
点,也和团队在实践过程中得到的经验有很好的切合。对每一个
想要从事VUI 相关领域的UX 设计师、语言学家甚至工程师,这
本书都能起到启蒙和指南的作用。
从我前面提到的AI 前后十年的说法来看,当下我们所处的弱AI
结合强产品的时代,还是有机会通过产品矩阵来形成现象级产品
的,而这时正需要懂AI 技术边界的设计师和产品人,来重新思
考和设计使用场景。甚至都不是“寻找”应用场景了,而是要去“发
明”应用场景的时代。创造出伟大的产品,在工程师把技术基础
打造得差不多时,还是需要设计师、心理学家、社会学家等,去
创造和拓展用户交互场景的疆界。
我们团队的一大常规团队建设内容就是一起重温那些经典的科幻
电影,吸收灵感,也感叹原本只存在科幻电影里的人工智能,在
这短短的几年就已经走进了我们的生活,甚至我们的现实已经在
很多的场景下超越了科幻电影的设定。而我们深知,这短短几年
AI 爆发的背后,是几十年同行者在不同基础领域的不断积累,是
像本书作者Cathy Pearl 这样将近20 年专注于VUI 的探索和实践
并著书立说、开放分享的精神。既然我们正在进入一个不可避免的智能时代,人机交互的下一轮革命就在各位眼前。人机共生的
灵性世界不是用机器人来取代人类,而是赋能予人。
未来已来,万物有灵,我们选择All in。
顾嘉唯
物灵科技CEO,前百度少帅
译者序
因缘巧合,有幸翻译本书。这于作为设计学徒的我而言实是一种
馈赠。
在与阿里巴巴国际UED 用户体验设计的同事们进行语音交互研
究的早期,我们第一时间购买了本书原版并进行了研读。这对于
尚在摸索阶段的我们而言,不仅节约了大量的时间,更让我们体
会到在当前的技术边界下,设计师在语音交互设计过程中的价值
所在。随着项目进程的深入,我们愈发觉得需要有这样一本专业
而系统的书,在可以预见的语音智能产品爆发之际,帮助在语音
交互和智能硬件道路上探索和学习的伙伴们共同学习、进步。同
时,我们也希望本书能为每一个正在或有心从事语音设计相关领
域的UX 设计师或产品设计师,提供一个了解其行业背景、设计
思维框架,以及相关技术现状的窗口,从而在日后的工作中能更
从容地设计、探索、创造出更好的用户体验。能为行业尽绵薄之力,
荣幸之至,不足之处还望海涵。
人工智能作为当下热门的细分科技领域,其带来的变革已经被推
到了“第四次工业革命”的高度,并正在影响当下信息构成、生
产和获取的方式。虽然早在1956年McCarthy就提出了“ 人工智能”
的概念,但时至今日,大众才开始逐渐感受到其真正的价值和影
响力。面对新一轮的科技爆炸,设计师需要重新思考,如何运用
设计思维和想象力拓展技术的应用场景,探索新的交互方式,并
赋予技术人性与人道,从而使新技术更好地赋能于人。
在这样的背景下,设计的客体不再只局限于屏幕内的内容,而是
逐渐趋近于真实世界的全貌。多通道、全链路、多角色,以及去
中心成为了设计的主旋律,这将促使设计师从更多维度进行设计
探索。本书作者Cathy Pearl 以其在语音交互设计领域17 年的洞
察为主线,深入挖掘了语音交互设计过程中每一个关键节点,及
其对应的设计原则,并探讨了技术与体验的平衡。行文中还融入
大量有代表性的行业真实案例,为我们带来了这本极富启发意义
的语音交互设计指南。这在当今的时代背景下,有着特殊的价值。
原作者Cathy Pearl 在书中提醒读者“不要为了使用语音交互而使
用语音交互”,这一点使我深受启发。相对于科技来说,人的生物
属性决定了很多客观存在的限制。例如,对于大多数人而言,眼
和口分别做两件不相关的事往往会使效率大打折扣。在设计多通
道交互的时候也是这样。当你使用语音作为主要通道进行交互,
线性传输的音频信息通过耳和口传递于人机之间时,很难排除来
自视觉通道信息的干扰。此时我们可以通过视觉和语音的强关联
性来强化语音交互(例如带屏幕的Echo Show),抑或是给用户的视线设计一个落点,减少其他的视觉干扰。视觉、听觉、味觉、
嗅觉、触觉,以某一个近似恒定的频次和信息比例与外界进行交
互,体现了知觉恒常性。这也是我在过往的 IoT 项目中,坚持遵
循的原则之一。
设计是一门研究“人”的学科,重在理解人,而基于技术与数据
的设计方法只是理解人的手段之一。基于人类自身行为特征的设
计思维在新的设计背景下得以继承,而基于技术的设计方法在新
技术的驱动下得以发展,两者相辅相成。 Cathy Pearl 以其近20
年的从业经历,以立体和动态的视角梳理了语音智能体验设计的
全流程,处理不同时代背景下用户体验和技术的制约与平衡,同
时也为我们展现了设计在新技术背景下所面临的全新挑战,以及
被赋予的全新意义。书中丰富的案例分析更为我们展现了一位成
熟设计师面对当下复杂多样的生态系统,所展现出的极具包容性
的思考框架。相信这将会成为未来多通道、全链路设计师的必备
素养之一。
作为一本立足过去、面向未来的设计指南,原作者 Cathy Pearl 在
有限的篇幅内,不仅探讨了人工智能背景下的情感化、游戏化设
计,更在探讨中引入了图形学、语言学,乃至戏剧领域里的专业
术语。这不仅使我们切实感受到作者广博的知识储备,更让我们
看到设计领域存在的更多可能性,并时刻提醒我们:设计不应仅
局限在已有的设计范畴内,更不应成为商业和技术的附加品,而
是应该不断向外突破,与技术和商业互相驱动,共同进步。
于我而言,翻译本书的过程不仅是对新领域的探索,也是一次对设计方法系统的梳理。整本书所使用的设计框架对于新领域的探
索极具价值,而单单只摘录对当前有用的部分,不足以体现这种
价值。这也是我决定要将全书进行翻译出版的初衷。希望无论是
体验设计师还是产品设计师,在面对新技术和新变化时,可以不
再迷茫,并建立属于自己的设计思维框架。
在翻译的过程中,我也时常反思这几年学习和工作中面对设计时
的思考,是否被既定的方法和流程限制了更多的可能性?是否过
分注重屏幕而轻视了屏幕外的真实世界?如何在解决用户问题的
同时,超出他们的心理预期以达成更大的满足?在万物AI 化,信
息横向拉平的未来,我们如何通过更多元的通道重塑自己的品牌?
复合体验在给人们带来便利的同时,也在逐步瓦解单一介质(如
印刷品、屏幕、声音)带来的感官刺激。产品以及背后的服务在
失去传统营销抓手后,如何在AI 生态中建立新的营销机制?有
太多新的问题等待我们去发现,去解决。
最后,感谢我的家人在翻译过程中给予了我最坚实的支持;感谢
王爽、洁君、夕圆、单卉等伙伴帮忙校对,使本书得以更好、更
快地与各位见面;感谢阿里巴巴国际UED 的同事们和天猫精灵
团队,在项目初期能克服万难,坚定不移地在语音交互和消费级
智能终端领域开疆辟土。感谢傅立民老师(Paul)、力丹老师、孙
效华老师和嘉唯哥的信任,并在百忙之中抽空为本书作序。感谢
出版社的孙老师,正是她独具慧眼的选题使得本书的中文版得以
出版发行;感谢阿里巴巴的Paul 和毛潇笑,让我有机会接触语音
交互这个新领域。最后感谢所有能读到这本书的读者,由于译者才疏学浅,翻译中难免会出现一些问题或疏漏,请各位同行和专
家不吝赐教,予以批评和指正。我非常欢迎来自各位的意见和反
馈,并会基于此做出更正与改进。谢谢。
那么,就请开始阅读吧。
王一行
阿里巴巴 高级交互设计师
前言
我们生活在一个神奇的时代。当我躺在客厅的沙发上,我只需要
用我的声音,就能预订一份一磅重的小熊橡皮糖,并且在两小时
内送货上门。(至于这是不是一件好事情,并不是本书要讨论的问
题。)
语音识别技术(即让计算机理解你说的话)在过去几年中突飞猛
进。1999 年,当我刚刚开始在Nuance Communications 公司进行
语音用户界面(VUI)的设计工作时,我很惊讶,一台计算机竟
然可以理解我说的“检查(Checking)”与“保存(Saving)”之
间的区别。而今天,你只要拿起你的手机——另一个神奇的设
备——并说“告诉我在两英里之内,有WiFi 并且周日营业的咖啡
店”,你就可以得到去往所有满足条件的咖啡店的路线。
20 世纪50 年代,当计算机刚开始激发人们的想象力时,人们认
为让计算机理解人们说的话是一件比较容易的问题。毕竟,“这些
语言连一个两岁的小孩都能理解!”
然而事实证明,理解语言是相当复杂的一件事件。它充满了一些
微妙的区别和特质,即使是人类也需要多年才能掌握。人们花费
数十年的时间才教会计算机理解一些最简单的命令。有些人认为,
只有存在于物理世界的实体才能真正理解语言。因为离开了语境,
就不可能理解话语背后的意义。
在科幻小说中,语音识别技术早已出现。在1968 年的电影《2001
太空漫游》中,HAL 9000 就是一个可以回应语音指令的智能计
算机(虽然它并不怎么按指令行事),给影迷留下了深刻的印象。
直到今天,人们还喜欢用那句经典的台词“打开辅助仓通道门,
HAL”来测试VUI 和聊天机器人。
在电影《星际迷航4 :抢救未来》(1986 年)中,进取号的船员
回到1986 年,当总工程师斯科特得到了一台计算机时,他用语
音发出指令“计算机!”,但是计算机没有回应。于是船医科伊递
给他一个鼠标,而斯科特把它当成了一个麦克风来用。当他最终
知道要使用键盘时,他说:“太古怪了!”。当然,总有一天键盘
真的会看起来很古怪,而这一天尚未到来。然而,如今我们与科
幻小说中的语音识别技术前所未有地接近。2017 年,网络零售商
ThinkGeek 将发布星际迷航徽章“ComBadge”:就像20 世纪80
年代电视剧里的一样,用户可以通过触碰徽章发出语音指令,并
通过蓝牙技术发送到你的手机。
这款产品的发布具有重大的意义。虽然基于电话的语音系统已经
存在了20 多年,手机VUI 也发展了近10 年,但是这个徽章真正
预示着人们重新开始探寻语音识别技术的初衷。它代表着生物模
拟的想象力。
中文翻译错误,“feeling cold” 应该翻译成 “感觉到冷”, 而非 “着凉”, 这样才能符合下一段的意思。