给 Sora 视频配音，ElevenLabs 推出 AI 音效生成功能，离 AI 生成电影又近了一步！

Founder Park Founder Park 2024-03-22

Sora 之后的新突破来了！

AI 语音克隆初创公司 ElevenLabs 宣布即将上线 AI Sound Effects 功能，可以让用户输入 Prompt 自动生成声音。在他们发布的演示短片中，他们将 Sora 创建的视频添加了背景声音，相当逼真。

ElevenLabs 的研究员 Flavio Schneider 也在 X 上发布了自己生成的 Sora 视频的配音版，听起来很燃。

文章转载自「新智元」、「机器之能」，Founder Park进行了部分增删。

01 根据 prompt 生成背景声音，功能即将上线

在官方发布的这个长达 1 分钟的视频中，所有声音——从城市喧闹背景下繁忙街道上的脚步声、海浪声、火车运行时有节奏的咔哒声、新年热闹的人群、未来机器人的机械声到好莱坞风格的宣传短片人声，等等——都由文本到音频提示生成。

「我们使用『海浪撞击』、『金属铿锵声』、『鸟鸣声』和『赛车引擎』等文本提示来生成音频，并将其叠加到我们最喜欢的一些 OpenAI Sora 视频上。」该公司在他们最新的 blog 中写道。

ElevenLabs 表示，他们正在开发一个新产品，可以根据用户给出的场景描述生成声音，为原本无声的视频片段添加声效。这次给 Sora 生成的内容添加效果，算是一次牛刀初试。

产品申请体验地址：https://form.typeform.com/to/gg0xzZW4

预告片出来后，有不少赞叹的声音。

linkedin 用户的支持声

x 平台用户的支持声

也不乏批评的声音，认为这些 AI 合成的声音没有「爱」和「细节」......

以 Sora、Runway、Pika 等工具为代表，完全由 AI 生成的内容正在兴起，效果逼真，但缺乏背景音频，这就是 ElevenLabs 新模型的用武之地，它允许用户通过描述他们想要的内容来为其内容制作声音效果。

ElevenLabs 表示，尚未准备好发布其文本到音效模型，但上线后它将能够帮助内容创作者创建全方位的声音，包括脚步声、波浪声和氛围声等。

除了 AI 生成的内容，ElevenLabs 新模型产生的声音甚至可以应用于任何其他需要背景音效的视频。比如 Instagram 视频、商业或视频游戏预告片等。最终效果如何，还有待检验。

02 给视频配音，需要让 LLM 理解隐式物理规则

虽然声效都是文本提示生成，但要生成正确的模拟效果并不容易。系统要同时针对文本和视频像素进行学习

那么，视频到音频的精准映射，该如何突破呢？对此，英伟达高级科学家 Jim Fan 做了一个比较全面的分析：

为了精确配合视频内容，配音不仅需要文本信息，视频像素也至关重要。

若想精确地实现「视频-音频」的无缝匹配，还需要 LLM 在其潜在空间内理解一些「隐式的物理原理」。

那么，一个端到端的 Transformer 需要掌握以下能力，才能正确模拟声波：

确定每个物体的种类、材质和空间位置。
识别物体间的复杂互动，比如棍子是敲在木头、金属还是鼓面？敲击的速度如何？
辨识场景环境，是餐厅、空间站、黄石国家公园还是日本神社？
从模型的内存中提取物体及其环境的典型声音模式。
应用「软性」的、已学习的物理规则，组合并调整声音模式的参数，或者即时创造全新的声音，类似于游戏引擎中的「程序化音频」。
对于复杂场景，模型需要根据物体的空间位置，将多条声音轨道叠加起来。

所有这些能力都不是通过显式模块实现的！它们是通过大量时间对齐的视频和音频配对，通过梯度下降法学习得来的。

模型的注意力层将利用其权重来实现这些功能，以达到扩散的目标。

目前，我们还没有创造出如此高质量的「AI 音频引擎」。

Jim Fan 挖出了 5 年前来自 MIT 团队的一项关于「The Sound of Pixels」的研究，或许从这里可以找到一些灵感。

这个项目中，研究人员提出了像素级声源定位系统 PixelPlayer。

通过结合声音和图像信息，AI 能够以无监督的方式从图像或声音中识别目标、定位图像中的目标，甚至分离目标视频中的声源。

当你给定一个输入视频，PixelPlayer 可以联合地将配音分离为目标组件，以及在图像帧上定位目标组件。

值得一提的是，它允许在视频的「每个像素」上定位声源。

具体来说，研究人员利用了图像和声音的自然同时性，来学习图像声源定位模型。

PixelPlayer 学习了近 60 个小时的音乐演奏，包括独奏和二重奏。它以声音信号作为输入，并预测和视频中空间定位对应的声源信号。

在具体训练过程中，作者还利用了自然声音的可加性来生成视频，其中构成声源是已知的。与此同时，还通过混合声源来训练模型生成声源。

这仅是视觉-音频联合学习（Audio-Visual Learning）研究中的一瞥，过去在这一方向领域的研究也是数不胜数。

比如，在 ECCV 2018 被接收的 Oral 论文「Learning to Separate Object Sounds by Watching Unlabeled Video」，同样使用了视觉信息指导声源分离。

论文地址：https://arxiv.org/pdf/1804.01665.pdf

比起 MIT 的那项研究，这篇论文除了在音乐，还在自然声上进行了实验。

以往的研究，都将为未来视频-音频完成精准映射进一步铺路。

正如这几天被人们炒的火热的 Sora 模型，背后架构采用的是 Diffusion Transformer 一样，正是基于前辈们的成果。

03 ElevenLabs：前谷歌大佬创立，AI独角兽公司

前文提到的 ElevenLabs，是由前谷歌机器学习工程师 Piotr Dąbkowski 和前 Palantir 部署策略师 Mateusz Staniszewski，在 2022 年共同创立的一家利用 AI 实现语音合成与文本转语音的公司。

这两位创始人都来自波兰，他们在看到美国电影不尽人意的配音后，萌生了创建 ElevenLabs 的想法。

尽管 ElevenLabs 没有固定办公地点并且仅有 15 名员工，但它却在 2023 年 6 月以约 1 亿美元估值成功筹集到了 1900 万美元的 A 轮融资。

到了 2024 年 1 月 22 日，ElevenLabs 又在 B 轮融资中筹集了额外的 8000 万美元，使估值达到了 11 亿美元。同时，公司还宣布推出了一系列新产品，包括声音市场、AI 配音工作室和移动应用等。

自去年 1 月发布 beta 版平台以来，ElevenLabs 便受到了创作者们的热捧。

2023 年 3 月，喜剧演员 Drew Carey 通过 ElevenLabs 的声音克隆工具，在他的广播节目《Friday Night Freakout》中复刻了自己的声音。

2023 年 3 月，流媒体自动化服务 Super-Hi-Fi 携手 ElevenLabs，利用后者的软件和 ChatGPT 生成的提示词，为其虚拟 DJ 配音，推出了全自动的「AI Radio」广播服务。

6 月 13 日，Storytel 宣布与 ElevenLabs 达成独家合作，后者将专门为 Storytel 的核心市场量身定制声音，制作 AI 叙述的有声读物。

在游戏领域，ElevenLabs 正与瑞典的 Paradox Interactive 和英国的 Magicave 等开发商进行合作。

ElevenLabs 的技术还被用于多语言视频配音，帮助内容创作者准确复制几乎任何语言的任何口音。此外，明星粉丝也通过 ElevenLabs 使用他们偶像的声音创作鼓舞人心的信息。

不过，等 OpenAI 发布能够视频-音频大模型之后，对于如上专门配音的初创公司 ElevenLabs 来说，或许都将是一场「灾难」。

参考资料：

https://twitter.com/elevenlabsio/status/1759240084342059260

https://twitter.com/DrJimFan/status/1759287778268025177

https://elevenlabs.io/blog/ai-sound-effects-are-coming-soon/

如果你关注大模型领域，欢迎扫码加入我们的大模型交流群，来一起探讨大模型时代的共识和认知，跟上大模型时代的这股浪潮。

7 万亿美元的芯片融资计划，Sam Altman 看到了什么，在害怕什么？

小伙子用ChatGPT找女友：聊了5239个女生，现在订婚了

开发者复盘：首个登上央视春晚的 AI 视频制作过程踩坑&技术分享

Perplexity CEO 专访：拥有十万用户的套壳产品比拥有自有模型却没有用户更有意义

转载原创文章请添加微信：geekparker

继续滑动看下一个

Founder Park

向上滑动看下一个

武汉出租车司机集体请愿给留口饭吃！无人出租车之后，无人外卖也上路了，底层人出路在哪？

细数，哪些驻津央企大佬出席了这场香艳饭局？

毫无意外，再创新高！

天津版“周公子”晒与多位国企大佬的香艳酒局，喊着想看十万加曝光文章

穷追猛打！别让油的关注度被稀释转移

给 Sora 视频配音，ElevenLabs 推出 AI 音效生成功能，离 AI 生成电影又近了一步！

01

根据 prompt 生成背景声音，功能即将上线

02

给视频配音，需要让 LLM 理解隐式物理规则

03

ElevenLabs：前谷歌大佬创立，AI独角兽公司

您可能也对以下帖子感兴趣

武汉出租车司机集体请愿给留口饭吃！无人出租车之后，无人外卖也上路了，底层人出路在哪？

细数，哪些驻津央企大佬出席了这场香艳饭局？

毫无意外，再创新高！

天津版“周公子”晒与多位国企大佬的香艳酒局，喊着想看十万加曝光文章

穷追猛打！别让油的关注度被稀释转移

生成图片，分享到微信朋友圈

给 Sora 视频配音，ElevenLabs 推出 AI 音效生成功能，离 AI 生成电影又近了一步！

01

根据 prompt 生成背景声音，功能即将上线

02

给视频配音，需要让 LLM 理解隐式物理规则

03

ElevenLabs：前谷歌大佬创立，AI独角兽公司

您可能也对以下帖子感兴趣