字幕的呈现方式在过去50年里并没有太大变化,这意味着语言和声音的细微差别,包括强调、语调和个性,经常会丢失。
如今,谷歌通过在Android平台推出Expressive Captions来改变这一现状,这是Live Caption中的一项新功能,旨在推进Google Captions产品套件,其中包括 Live Transcribe、声音通知等。
Expressive Captions基于Android设备AI来传达音调、音量、环境提示和人声等信息。这些小细节对于传达文字之外的信息有很大帮助,尤其是对于没有预加载或高质量字幕的直播和社交内容。
Expressive Captions是Live Caption一部分,因此可内置于操作系统中并可适用于APP。这意味着用户可以在观看的大多数内容中启用Expressive Captions,例如社交平台直播。启用后,字幕将实时显示在设备上,因此即使在飞行模式下也可以使用。
为了开发Expressive Captions,谷歌Android和DeepMind团队努力了解我们如何在没有声音的情况下与设备上的内容互动。Expressive Captions使用多种AI模型,不仅可以捕捉口语单词,还可以将其转换为风格化的字幕,同时为更广泛的背景声音提供标签;这使得字幕就像听音频一样生动,这只是谷歌团队为残障人士打造真实生活体验并使用AI为所有人打造的一种方式。
现在,Expressive Captions登陆了美国市场,适用于搭载Android 14及以上版本且具有Live Caption的Android设备。
Expressive Captions是谷歌刚宣布的几项Android新功能之一。Lookout应用中还有另一项无障碍功能,专门为盲人或视力较弱的用户而设计。应用中的图片问答功能允许用户上传或拍摄照片并获得AI生成的描述,该功能现在采用了谷歌更先进的Gemini 1.5 Pro大型语言模型。用户可将其视为提供更丰富描述的升级版,并且仍可提出后续问题以了解有关图像的更多信息。