今年三月Facebook创始人CEO马克·扎克伯格,对外宣称未来十年Facebook将发力AR/VR领域,而前不久,The Information发布一份报告,如今Facebook将近1/5的员工为FRL(Facebook Reality Labs)工作,这是一个信号,意味着Facebook在VR/AR领域可能会诞生令人瞩目的产品,创造新的人机交互方式。本文来自Facebook官方,分享了一些Facebook近期的研究:基于手腕的输入与可用但有限的情境化人工智能相结合,动态地适应用户和环境。今年晚些时候,Facebook将讨论软体机器人方面的一些突破性工作,以建立舒适、全天候的可穿戴设备,并提供触觉手套研究的最新情况。
Facebook虚拟现实研究实验室(Facebook Reality Labs),我们正在为AR构建一个交互界面,它不需要我们在与设备的互动和与周围世界的互动之间做出选择。我们正在通过自然、直观的方式来开发,与始终可用的AR眼镜进行互动,因为我们相信这将改变人们的连结方式。
“想象一下,能够把你传送到世界任何地方,与你生命中最重要的人分享经验,无论他们在哪里。”领导FRL的安德鲁·博斯沃思(Andrew Bosworth)说。“这就是AR眼镜的前景。它是现实世界和虚拟世界的融合,从根本上提高了日常生活的质量”。
AR眼镜不会像我们的手机那样,把我们的注意力拖到手掌上,而是会像我们看到的真实世界一样,第一次把人放在计算体验的中心,把数字世界以三维方式带到我们身边,帮助我们在这个世界上沟通、导航、学习、分享和采取行动。
人机交互的未来需要一个特别容易使用、可靠和私密的界面,让我们在任何时候都能完全置身于现实世界。这种界面将需要许多创新,从而成为我们与数字世界互动的主要方式。其中最关键的两个要素是:能够理解你的命令和行动,以及理解你周围环境感知人工智能,以及让你毫不费力地与系统沟通的技术,我们称之为超低摩擦输入(ultra-low-friction input)。人工智能将根据对你和你周围环境的理解,对你可能需要的信息或你可能想在各种情况下做的事情进行深入推断,并为你提供一套量身定做的选择。该输入将使选择变得毫不费力,使用它就像通过你手指的轻微移动点击一个虚拟的、始终可用的按钮一样简单。
但这个系统还需要很多年的时间。因此,今天我们将仔细研究一个可能更早实现的版本:基于手腕的输入,与可用但有限的情境化人工智能相结合,动态地适应你和你的环境。
六年前,当FRL Research(当时的Oculus Research)成立时,我们开始想象AR眼镜为理想输入设备。我们的目标是开发无处不在的输入技术,任何人都可以在一天中遇到的各种情况下使用这种技术。首先,该系统需要负责任地建立,从一开始就考虑到隐私、安保和安全,为人们提供有意义的方式来个性化和控制他们的AR体验。界面也需要是直观的、随时可用的、不显眼的和易于使用的。理想情况下,它还将支持丰富的、高带宽的控制,从操纵虚拟物体到编辑电子文档,都能很好地运行。除此以外,它还需要有一个足够舒适的外形,可以穿戴一整天,并有足够的能源效率来维持。
这是一个很长的要求清单。当我们研究各种可能性时,有两件事变得很清楚:第一是当时没有任何东西能接近满足所有这些标准。另一件事是,最终出现的任何解决方案都必须戴在手腕上。
为什么是手腕
为什么要用手腕?有许多其他的输入源,都是有用的。语音是直观的,但对于公共领域来说不够私密,或者因为背景噪音而不够可靠。你可以把一个单独的设备放在你的口袋里,像手机或游戏手柄一样,在你和环境之间增加了一层摩擦。当我们探索各种可能性时,将输入设备放在手腕上成为明确的答案。手腕是佩戴手表的传统位置,这意味着它可以合理地融入到日常生活和社会环境中。这是一个适合全天佩戴的舒适位置。它紧挨着你用来与世界互动的主要工具——双手。这种接近性将使我们能够把手的丰富控制能力带入AR,实现直观、强大和令人满意的互动。
基于手腕的可穿戴设备有一个额外的好处,即可以轻松地作为计算、电池和天线的平台,同时支持各种传感器。缺少的部分是为丰富的输入找到一个明确的路径,而一个潜在的理想解决方案是EMG。
EMG:肌电图,使用传感器将手腕到手的运动神经电信号,转化为数字指令,你可以用它来控制设备的功能。这些信号让你向设备传达清晰的单比特命令,这种控制程度是高度个性化的,可适应许多情况。
通过手腕的信号是如此清晰,以至于EMG可以理解仅一毫米的手指运动。这意味着输入可以毫不费力。最终,它甚至有可能只感知手指移动的意图。
“我们试图用神经接口,让你直接控制机器,使用外周神经系统的输出——特别是大脑外的神经,使你的手和手指肌肉活跃起来。“FRL的神经运动接口主任托马斯·里尔顿(Thomas Reardon)说,他在2019年Facebook收购CTRL-labs(一家脑机接口初创公司)时加入了FRL团队。
这和读心术不一样。这样想吧,你拍了很多照片,但只选择分享其中的一部分。同样,你有很多想法,但你只选择对其中一些想法采取行动。当这种情况发生时,你的大脑会向你的手和手指发送信号,告诉它们以特定的方式移动,以便执行打字和刷卡等动作。这是在手腕处解码这些信号,你已经决定执行这些动作,并将它们转化为设备的数字指令。这是一种更快的方式,当你今天点手机上的歌曲、点击鼠标或在键盘上打字时,你已经向你的设备发出了指令。
腕部的动态控制
最初,EMG将只提供一、两个控制位,我们称之为 ”点击“,相当于点击一个按钮。这些是基于动作的手势,如拇指和食指的捏和放,很容易执行,无论你在哪里或在做什么,当你走路、说话,或坐在你的两侧,手在你面前,或在你的口袋里。点击你的手指永远都很简单,不需语音唤醒词,使之成为AR第一个无处不在、超低摩擦的互动。
但这只是第一步。EMG最终会发展到更丰富的控制。在AR中,你将能够实际触摸和移动虚拟UI和物体,正如你在演示视频中看到的那样。你将能够在远处控制虚拟物体。这有点像拥有原力这样的超能力。
但这仅仅是个开始。很有可能最终你将能够在桌子上或腿上用EMG高速打字,甚至可能比今天用键盘打字的速度更快。最初的研究是很有希望的。事实上,自从2019年加入FRL以来,CTRL-labs团队在个性化模型方面取得了重要进展,减少了训练适应个人打字速度和技术的定制键盘模型的时间。
“神经接口的目标是打乱这一漫长的人机互动历史,开始使人类现在对机器的控制力超过机器对我们的控制力。”Reardon解释说。“我们希望计算体验中,人是整个体验的绝对中心。”
以QWERTY键盘为例,它已经有150多年的历史了,而且可以从根本上加以改进。想象一下,一个虚拟键盘可以随着时间的推移学习并适应你独特的打字风格(错别字等)。其结果是,键盘会慢慢适应你,而不是你和世界上其他所有人都在学习同一个物理键盘。这将比任何机械打字界面更快,而且它将永远可用,因为你自己就是键盘。而虚拟打字和点击等控制的好处在于,人们已经善于使用它们了。
自适应界面和通往智能点击的道路
那么,在不久的将来有什么可能性,我们将如何达到这个目标?
“我们相信腕带式可穿戴设备可能为AR眼镜提供一条通往超低摩擦、始终可用的输入路径,但它们本身并不是一个完整的解决方案,就像鼠标是图形用户界面的一个部分一样。”FRL研究科学部主任Hrvoje Benko说。“它们需要得到意图预测和用户建模的辅助,以实时适应你和特定环境”。
如果不是通过点击菜单,而是系统向你提供这个事情,你只需用一个简单的 “点击”手势就能确认,那会怎么样呢?当你把输入的微型手势与自适应界面结合起来时,你就会得到我们所说的 “智能点击”。
“底层人工智能对你可能想做的事情有一定的了解。“FRL研究科学经理Tanya Jonker解释说。”也许你到外面去慢跑,根据你过去的行为,系统认为你最有可能想听你的跑步的歌单。然后它就在显示屏上向你展示这个选项:‘播放跑步歌单?’这就自适应界面如何运作。然后,你可以简单地确认或使用微手势调整这个建议。智能点击使你有能力以非常低的方式采取这些高度关联的行动,因为界面会根据你的个人历史和选择浮现出相关的东西,而且它允许你用最小的输入手势来做这些事。”
这可能只是在每次互动中为你节省几秒钟,但所有这些时间都会累加。也许更重要的是,这些微妙的手势不会使你偏离你的思路或原有的动作流程。例如,想象一下,如果你在与数字世界打交道之前不必停止你正在做的事情,来选择和打开正确的App,你会节省多少时间?为了让AR眼镜真正改善我们的生活,让我们保持当下的状态,我们需要一个自适应的界面,只有在相关的时候才会轻轻地浮现数字信息,然后自然地淡出到后台去。
“界面不是不断地将你的注意力转移回设备上,而是在你需要的时候简单地进入和离开焦点。”Jonker指出,“它应该能够根据你对系统的非常、非常轻量级的反馈来调节其行为,了解其对你的建议是否有效,以便整个系统随着时间的推移而改进。”
这是很高的要求,而且还有一些技术挑战。构建一个能够识别和解释来自用户和世界的背景界面需要机器学习、人机交互和用户界面设计方面的进步。
“系统会学习一些关于你的位置和关键对象的信息,比如你的跑鞋,或者活动识别。”Jonker说。“而且它了解到,在过去,当你穿着这些鞋子离开家时,你经常启动你的音乐App。然后,它问你是否愿意播放你的音乐,并允许你只需点击一下就能确认。这些更简单可行的例子是我们在目前的研究中正在探索的。”
触觉反馈
虽然像手指点击或微手势这样的超低摩擦输入,将使我们能够与自适应界面进行互动,但我们还需要一种方法来关闭反馈回路,让系统与用户进行交流,并使虚拟对象有实实在在的感觉。这就是触觉技术发挥作用的地方。
FRL研究科学主任Sean Keller说:”从你出生时的第一次抓握,一直到灵巧地操纵物体和在键盘上打字,都有这种真正丰富的反馈回路,你用你的手和手指做的事情,然后在你与世界互动时感受到感觉。我们已经进化到利用这些触觉信号来了解这个世界。正是触觉让我们使用工具和精细控制。从外科医生使用手术刀到音乐会钢琴家感受琴键的边缘,这一切都取决于触觉。有了腕带,这只是一个开始。我们无法重现虚拟世界中你与现实世界真实物体互动时可能感受到的每一种感觉,但我们已经开始产生很多种感觉了”。
以虚拟弓箭为例。通过基于手腕的触觉,我们能够接近拉开弓弦的感觉,以便让你相信你正在正确地执行这个动作。
当你收到一封标有 “紧急 ”的电子邮件时,你可能会感觉到一系列的震动和脉冲来提醒你,而普通的电子邮件可能只有震动或根本没有触觉反馈。当有电话打进来时,手腕上的定制触觉反馈可以让你知道是谁打来的。然后,这将让你完成一个动作,在这种情况下,智能点击接听电话或将其转接到语音信箱,这一过程很少或没有视觉反馈。这些都是触觉反馈帮助人机交互成为你和设备之间双向对话的例子。
“触觉也可能能够传达不同的情绪,我们称之为触觉表情符号。”FRL研究科学经理Nicholas Colonnese补充说。“如果你在正确的环境中,不同类型的触觉反馈可以对应于流行的表情符号。这可能是一种新的玩法,可以实现更好的社会沟通。”
我们目前正在建造一系列的研究原型,旨在帮助我们了解腕带触觉技术。其中一个原型被称为 “Bellowband”,这是一个柔软而轻巧的腕带,以放置在手腕上的八个气动波纹管命名。波纹管内的空气可以控制,以便在空间和时间上以复杂的模式呈现压力和振动。这是一个早期研究原型,帮助我们确定值得进一步探索的触觉反馈的类型。
另一个原型,Tasbi(触觉和挤压手镯界面),使用六个振动触觉致动器和一个新颖的手腕挤压机制。利用Bellowband和Tasbi,我们测试了一些虚拟互动,看人们是否能检测到虚拟按钮的硬度差异,感受不同的质地,移动虚拟物体。这些原型是创造与现实生活中的物体和活动感觉无异的触觉反馈的重要一步。因为一种叫做感官替代的生物现象,这实际上是可能的。我们的大脑结合了视觉、听觉和触觉的刺激,赋予这些虚拟体验新的维度。
这仍然在早期阶段,但未来是有希望的。
“触觉研究的优势让我们相信,我们实际上可以实现丰富的交流。”Keller指出。“人们可以通过触摸来学习语言,而且有可能只通过一个腕带。有一个全新的空间刚刚开始开放,其中很多都是从手腕上更丰富的触觉系统开始的。”
隐私和安全
为了建立一个可以在日常生活中实际使用的以人为本的AR界面,隐私、安全和保障必须被视为基本的研究问题,这是我们在基于手腕的交互中所有探索的基础。我们必须问,如何能够帮助人们对他们的AR交互体验做出明智的决定。换句话说,我们如何使人们能够在自己和设备之间建立有意义的界限?
“理解和解决道德问题的全部内容,需要社会层面的参与。” Keller说。“根本无法靠我们就达到目的,所以我们并不试图这样做。当我们发明新技术时,我们致力于与社会分享我们的学习成果,并参与公开讨论以解决人们关切的问题。”
这就是为什么我们支持并鼓励我们的研究人员,在同行评议的期刊上发表他们的工作研究,以及为什么我们今天要讲述这个故事。我们相信,在这些技术成为消费者产品之前,需要公开和透明地进行许多关于人机交互的未来是什么样子的讨论。
我们正在采取具体措施,在技术开发的同时讨论重要的神经伦理学问题。我们在FRL Research的神经伦理学计划包括 “负责任的展望 ”研讨会,在该研讨会上,我们将产品可能产生的潜在危害浮出水面,并加以缓解;还有 “负责任的创新 ”研讨会,帮助我们识别开发过程中可能出现的潜在问题并采取行动。我们与学术伦理学家合作,帮助整个行业解决这些问题,而我们团队中的嵌入式伦理学家则帮助指导我们解决数据管理等问题。
随着我们继续探索AR的可能性,我们也将继续把我们负责任的创新原则作为追求的每一个研究问题的支柱,其中最主要的是:永远把人放在第一位。
一个充满可能性的世界
通过手腕上的传感器,你可以与虚拟物体互动,或以一种几乎无摩擦的方式控制客厅的氛围环境。而天生没有手的人甚至可以学习操作一个虚拟的手。
“我们限制了创造力,以及我们在这个世界上的行动。”Reardon说。“能够做得更多、更快,因此实验更多、创造更多、探索更多,这就是下一个计算平台的核心。”
我们相信人们不需要在虚拟世界和现实世界之间做出选择。通过基于手腕的超低摩擦输入、由上下文感知的人工智能驱动的自适应界面和触觉反馈,我们可以用一种不会把我们从当下拉出来的方式,与设备进行交流,让我们与他人更深入地联系,改善我们的生活。
“这是一个令人难以置信的时刻,为创新和发现搭建了舞台,因为它是对旧世界的改变。”Keller说。“这是对我们所遵循、依赖的规则的改变,从而推动计算机的发展。而这是我现在能想象到的最丰富的机会之一。”
来源:神译局