新专利显示,微软可能正在开发音频到图像生成器
您的会议很快就会通过实时图像生成而得到增强。
目前市场上有许多人工智能(AI)工具可以将用户的文本和图像转换为与初始提示相匹配的图像和视频。一项新专利表明,音频可能很快就会成为将您的愿景变为现实的输入选项。
据 MSPowerUser 发现,美国专利商标局 (USPTO) 发布了一份由微软于 2023 年 4 月 5 日提交并于 2024 年 10 月 10 日发布的 20 页文件,其中详细介绍了一种新的人工智能支持系统,该系统可将实时音频转换为图像。
该系统将获取音频直播流,例如来自会议或讲座的音频直播流,并将其转换为实时文本记录。然后,文字记录将由大型语言模型 (LLM) 进行汇总,并输入文本到图像模型,其中将生成图像并在屏幕上输出,如下图所示。
该系统将在音频流期间继续执行此操作,不断生成实时图像。微软表示,实时显示图像可以帮助提高沟通效率,视觉辅助工具可以让人们更加投入,让概念更容易理解。
微软表示:“显示与口头交流信息相关的图像可以提高交流的效率,使其更有吸引力、更容易记住、更容易理解。”
如果您想知道该功能是否会很快推出,答案很可能是否定的。申请专利是生产产品或功能之间的漫长旅程,许多专利从未进入生产阶段,仍然是一个想法。
然而,如果微软确实决定推出此功能,它可能会存在于其视频会议平台 Microsoft Teams 中,并且可以通过其 AI 插件 Copilot(例如适用于企业的 Copilot Pro 或 Microsoft 365 Copilot)进行访问。