Sora来了!潘多拉的魔盒被打开?
有人感叹AI技术的突飞猛进,有人警惕人工智能潜在的伦理危机,Sora到底是敌是友?
图/OpenAI 官网,为 Sora 生成的视频,部分截取
图片来源:X平台
技术报告揭秘Sora六大核心优势
而在Sora推出后不久,OpenAI发布了这款新工具的技术报告。在报告中,OpenAI首先重点介绍了如何将不同类型的视觉数据转化为统一的格式,以便于对生成模型进行大规模训练的方法,并对Sora的能力和局限性进行了评价。
图片来源:Sora技术报告
(1)准确性和多样性:Sora的显著特征之一是能够准确解释长达135个单词的长提示。它可以准确地解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。这一新工具可将简短的文本描述转化成长达1分钟的高清视频。它涵盖了广泛的主题,从人物和动物到郁郁葱葱的风景、城市场景、花园,甚至是水下的纽约市,可根据用户的要求提供多样化的内容。
(2)强大的语言理解:OpenAI利用Dall-E模型的re-captioning(重述要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。此外,与DALL·E 3类似,OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。
(3)以图/视频生成视频:Sora除了可以将文本转化为视频,还能接受其他类型的输入提示,如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI在报告中展示了基于DALL·E 2和DALL·E 3的图像生成的demo视频。这不仅证明了Sora的强大功能,还展示了它在图像和视频编辑领域的无限潜力。
(4)视频扩展功能:由于可接受多样化的输入提示,用户可以根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。从OpenAI提供的4个demo视频看,都从同一个视频片段开始,向时间线的过去进行延伸。因此,尽管开头不同,但视频结局都是相同的。
(5)优异的设备适配性:Sora具备出色的采样能力,从宽屏的1920x1080p到竖屏的1080x1920,两者之间的任何视频尺寸都能轻松应对。这意味着Sora能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前,Sora还能以小尺寸迅速创建内容原型。
(6)场景和物体的一致性和连续性:Sora可以生成带有动态视角变化的视频,人物和场景元素在三维空间中的移动会显得更加自然。Sora能够很好地处理遮挡问题。现有模型的一个问题是,当物体离开视野时,它们可能无法对其进行追踪。而通过一次性提供多帧预测,Sora可确保画面主体即使暂时离开视野也能保持不变。
图片来源:Sora技术报告
据外媒报道,Sora的推出标志着AI研究的一个重要里程碑。凭借其模拟和理解现实世界的能力,Sora为未来实现通用人工智能(AGI)奠定了基础。从本质上讲,Sora不仅仅是生成视频,而是在突破AI所能完成的极限。伊利诺伊大学厄巴纳-香槟分校信息科学教授Ted Underwood表示:“就算是在未来的2-3年,我也没想过视频制作可以达到这样持续、连贯的水平。”他表示,与其他文本到视频工具相比,“容量似乎有所提升”。OpenAI CEO阿尔特曼在X平台上透露,Sora目前已向红队成员(red teamers,指的是误导信息、仇恨内容和偏见内容等方面的专家)和部分创意人士开放。
业内人士:Sora可能让AGI在1年左右实现
英伟达人工智能研究院首席研究科学家Jim Fan则在X平台发文表示,“如果你还是把Sora看成DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。他是对许多世界的模拟,无论是真实的还是幻想的。”他认为,Sora是一个可学习的模拟器,或“世界模型”。Jim Fan称这是视频生成领域的GPT-3时刻。针对部分称“Sora并没有学习物理,仅仅是在二维空间里对像素进行操作”的声音,他表示,Sora所展现的软物理仿真实际上是一种随着规模扩大而出现的特性。Sora必须学习一些隐式的文本到 3D、3D 变换、光线追踪渲染和物理规则,才有可能精确地模拟视频像素。它必须理解游戏引擎的概念,才有可能生成视频。
图片来源:X平台
图片来源:X平台
03
Sora存在大量问题 颠覆行业仍有距离
男人倒着跑跑步机。
(图/OpenAI 官网,为Sora生成的视频,部分截取)
Sora的世界模型仍有非常多的问题,比如,一块饼干被咬过之后,却没有留下咬痕。OpenAI 非常实在,把这些问题都写在了官网上。周鸿祎指出,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。他表示,“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”他解释说,“机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意至少需要人给提示词。”他强调,科技竞争最终比拼的是人才密度和深厚积累。目前,Sora 仅开放给了少部分人进行内测,据称是一些视觉艺术家、设计师和电影制作人。同时,OpenAI 内部仍在进行模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容,至于色情暴力,则会在文本输入时,就被拒绝掉。
Sora的“蝴蝶效应”何时影响我们
1.OpenAI 一拳打在了所有人的肝上:全球的 AI 视频生成赛道投资逻辑,乃至相关企业的生存逻辑,在此刻都已经改变了。未来一个季度内,如果该企业的视频生成能力,仍然停留在 4s,或导致直接出局;
2.AI 已经快速迈过文生文、Chatbot时期,大步进军视频生成领域:当下最火的短视频、短剧,将迎接 AI 的到来;那些卡在瓶颈上的领域,比如自动驾驶、智慧城市,或将迎来突破。
3.不要过度神话Sora或其他AI视频生成工具,当下仍有巨量的技术、产品、商业问题等待解决;但也不要低估 AI 技术的进步速度,那个凝固在未来时光中、让人看不清面貌的 AGI(通用人工智能),正在向我们迈步。
图/OpenAI 官网,为Sora生成的视频,部分截取
有专家对虎嗅表示,大厂目前对于AI视频生成的态度相当模棱两可。根本问题在于,现在的人工视频生成效果更好,且成本也能接受,AI 视频生成,在此前没有大家想象的那么颠覆,所以整体策略偏向“防御”,而非“进攻”。
这一切,既麻痹了像 Pika、Runway 一样的创业公司,让他们以为机会已至、前景够好;也让这些公司及其投资人,低估了视频生成赛道的竞争烈度,以为窗口期仍然足够长。
所有的 AI 视频生成公司,在这种麻痹里,都陷入了同质化竞争:过多关注更高画质、更高成功率、更低成本,而非更大时长以及世界模型。
Pika、Runway、Meta,大体都是如此,在时长不超过 4s 的范围内,可以做到画质极度精美,但物体本身的运动幅度极低,且会变形。
国内的字节跳动,反倒是其中的另类。在视频领域,字节的嗅觉更加敏锐。2023 年 11 月,字节跳动发布 PixelDance,通过上一个视频片段尾帧,为下一个视频片段头帧提供指导的思路,在视频时长上有所突破,但截止到发稿时间,仍然没有开放用户测试。
05
滥用仍是最大的担忧
随着名人、政客等人物的深度造假视频在网上变得越来越普遍,相应的伦理和安全问题也让人心惊,尤其是在总统选举年和紧张的政治局势背景下。Gartner分析师Arun Chandrasekaran表示,“鉴于这项技术确实非常新,他们必须对其进行充分控制,以防止其被滥用和误用,甚至客户在没有认识到这项新兴技术所有局限性的情况下使用它。”他补充道,OpenAI为该模型设置的防护措施以及确定谁可以获得访问权限至关重要。牛津互联网学院客座政策研究员Mutale Nkonde也表示,任何人都可以轻松地将文本转换为视频这一想法令人兴奋。但同时,她也担心这些工具可能会植入社会偏见和仇恨内容,对人们生计造成影响等。普林斯顿大学计算机科学教授Arvind Narayanan对此也有担忧,认为Sora这类技术可能会导致“深度伪造”视频,让人们难以识别。虽然AI制作的视频仍会有一些不一致的地方,但普通人可能不会注意到这些细节。“迟早,我们需要适应现实主义不再是真实性的标志这一事实。”针对业界的担忧,与此同时,监管机构也在加强管理。美国联邦贸易委员会(FTC)2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示,它正在提议修改一项已经禁止冒充企业或政府机构的规则,将保护范围扩大到所有个人。
·END·
怀化市网信系统2023年度网络管理与执法工作情况通报
中共中央印发《党史学习教育工作条例》
来源:天津广播编辑:王媛媛、周志一审:张皎 二审:白杨波 三审:张捷