🤖 由 文心大模型 生成的文章摘要
美国专利商标局正式公布了苹果61项实用专利,涉及Apple Vision Pro空间音频、柔性和可折叠显示屏、AirTags等。
苹果专利涉及程序音频,这对于为应用程序生成逼真的声音组件非常重要,例如视频游戏、扩展现实(XR)环境(例如虚拟现实(VR)、混合现实(MR)等)以及噪音和音景。
与使用预先录制的材料库相比,程序化音频的主要优点是可以即时生成程序化音频,从而确保音频对于特定情况而言是唯一的。
苹果解决方案基于机器学习(ML)模型生成逼真的音频效果和氛围。例如,ML模型(例如深度神经网络生成模型、如生成GAN),其被配置为响应于输入生成空间程序音频输出。具体而言,可以使用具有基于(第一)输入噪声信号(例如包含噪声)的信号)的输入GAN来生成包括由物体(例如关门声)产生的声音的单声道音频信号和单声道音频信号的空间参数。空间参数可包括声音的到达方向(DOA)和/或声音的扩散度。关门声情况下,DOA 可以指示声音的来源位置(例如在XR环境中),可根据空间参数对单声道音频信号进行空间编码,以生成声音的空间音频数据。
例如,空间音频数据可包括环绕声多通道格式(例如,5.1、7.1等)的多通道音频、声音基于矢量的振幅平移(VBAP)表示、包括声音空间的高阶立体混响(HOA)表示等。
苹果专利图1示出了用于生成空间音频数据的音频系统框图;图4示出了用于生成空间音频数据ML模型的音频系统框图。
「93913原创内容,转载请注明出处」