Rokid Glasses AR+AI眼镜于去年11月发布,用户通过戒指的轻触即可控制提词翻页。然而,这种操作方式在实际使用中存在一定的局限性,例如手动操作容易分散用户的注意力,特别是在重要演讲场合,用户可能因担心操作失误而影响演讲表现;同时,固定的翻页节奏无法根据演讲者的实际语速和节奏进行灵活调整,导致提词与演讲不同步,影响演讲的流畅性。
基于这些使用痛点,Rokid研发团队宣布近日提交了一份 “一种基于智能算法的提词器功能” 的专利,可以根据演讲者的语速和演讲节奏自动匹配文稿。其核心技术在于将演讲者的语言表达与文稿滚动实现无缝同步,解决了传统提词系统的顽疾。
Rokid的新专利通过三项核心技术构建了智能提词系统:
多模态语音识别引擎系统:采用端到端的深度神经网络模型,可实时解析演讲者的语音内容。其创新之处在于:
方言兼容性:除普通话外,也支持多种方言,满足多语言场景需求。这对于来自不同地区、习惯使用方言演讲的用户来说,极大地提高了提词器的实用性,不再受限于标准普通话,让交流更加自然顺畅。
抗干扰能力:在45分贝背景噪音下仍保持98%的识别准确率。即使在较为嘈杂的环境中,如室外演讲、现场有一定背景音的活动等,该系统也能精准识别演讲者的语音,确保提词的准确性,不会因外界干扰而出现错误或延迟。
非线性识别:能精准捕捉重复朗读、跳跃式朗读等非常规表达,如演讲者突然回顾前文或跳读关键段落时,系统能智能判断意图并调整文稿位置。当演讲者根据现场氛围和自身思路灵活调整演讲顺序时,提词器也能及时跟上,避免出现文稿与演讲内容脱节的情况。
动态语速适配算法:该算法构建了 “语速-文本密度” 的动态映射模型:
实时语速追踪:每0.5秒更新一次语速数据,覆盖80-200字/分钟的宽泛区间(覆盖99%的演讲场景)。无论演讲者语速是快是慢,系统都能迅速感知并做出相应调整,使文稿滚动速度与演讲者语速完美匹配,避免出现提词过快或过慢的问题。
弹性缓冲机制:当检测到5秒以上停顿时,系统自动暂停并标记当前位置,恢复时通过上下文语义分析定位正确段落。在演讲者进行较长时间停顿,如思考、与观众互动后,系统能够准确记住停顿位置,待演讲继续时,从正确的地方继续提词,保证演讲的连贯性。
多场景演讲匹配算法:多场景匹配算法结合,满足演讲场景的全方位交互需求:
精准匹配算法:演讲者无论是跳词还是漏字,都能精准地匹配到正在阅读的语句。即使演讲者在紧张状态下出现口误或表达不规范,系统也能准确理解其想要表达的内容,持续提供准确的提词服务。
模糊匹配算法:演讲过程中,演讲者脱稿即兴发挥或与观众无稿交流时,匹配算法将暂停,不影响演讲者的节奏,当演讲者回到演讲稿中,匹配算法会立即识别,继续精准匹配。这种智能的切换机制,让演讲者在需要时能自由发挥,又能在回归文稿时无缝衔接提词功能,极大地提升了演讲的自然度和流畅性。
Rokid Glasses AR+AI眼镜的这一创新专利,有望为用户带来更加便捷、高效、自然的演讲提词体验,进一步推动 AR+AI 技术在实际应用场景中的普及和发展。