查看原文
其他

图数室 | Sora又把中美AI的差距拉大了吗?

图数室 图数室 2024-02-29

北京时间2月16日凌晨,OpenAI发布文本生成视频的AI模型Sora,瞬时刷屏科技圈,成为2024年开年“顶流”。


官方称,Sora只需文本就能自动生成高度逼真和高质量的视频,且时长突破1分钟。这是继文本模型ChatGPT和图片模型Dall-E之后,OpenAI在视频领域的另一个颠覆性创造。


Sora之前,并不是没有AI生成视频的应用,Runway、Pika、Stable Video Diffusion等公司百舸争流。但如今Sora横空出世,这些公司瞬间变得暗淡无光。


被称是“降维打击”的Sora到底有多强?



“一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。”


片来源:OpenAI官网


这是OpenAI在官网介绍视频模型 Sora出现的第一组提示词。这段由Sora自主生成的长达59秒的一镜到底的视频,也是其展现给公众的第一个成果,随即引爆全球网络,实现爆发式的传播发酵。


作为一款视频生成模型,Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频。



与其他视频生成模型相比,Sora能够根据提示词生成60s的连贯视频,这对于平均只能生成“4s”视频的全行业来说,造成了“碾压式”的冲击。


此外,Sora在采样的灵活性、视频拓展、镜头语言等方面,也远远领先于其他模型。



在对Sora生成的视频表示震惊之余,各路大佬们也开始纷纷表态:有人吃瓜感慨“gg humans”,竞争对手接受压力并参与“游戏”(game on);技术大牛深扒核心技术称Sora是一个“数据驱动的物理引擎”(Sora is a data-driven physics engine)......



尽管Sora生成的视频远远高出行业的平均水平,但依旧存在某些局限性。技术报告提到,Sora还存在不准确的物理建模和非自然物体“变形”的例子,以及在模拟对象和多个角色之间的复杂交互,对模型来说通常具有挑战性等。



自谷歌2017年发布Transformer网络结构以来,仅用五年多时间全球已迅速成长出庞大的大模型技术群,衍生出涵盖各种技术架构、各种模态、各种场景的大模型家族。


从文字工作者恐失业的文本大模型 ChatGPT,到设计师恐失业的图片生成模型 Stable Diffusion 和 Midjourney,技术的发展日新月异,大模型正在改变着各行各业。


如今,AI生成视频正迎来爆发期。



此次Sora横空出世,无疑是给AI生成视频添了一把火。


事实上,AI生成视频早已断断续续火了一段时间。2023 年可以看作是 AI 视频爆发的一年。年初,还没有公开的文本到视频模型。仅仅 12 个月后,数十种视频生成产品开始投入使用,全球数百万用户根据文本或图像提示创建短片。



根据美国VC机构a16z的统计,截止到去年11月,文生视频领域发布相关工具与产品达到了21种。


但此时发布产品的多为初创企业,拥有相机平移和变焦以及动作控制功能的在少数,这意味着无法生成拥有更多视觉深度和动态效果的复杂视频。


此外,生成视频的时间也较短,大多在3秒左右,与其说生成的是视频,不如说生成的是GIF动图。




Sora的发布,意味着新一轮人工智能革命的开端,我国AI科技处于怎样的水平,中美之间的差距有多大呢?


去年5月,科技部发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,10亿参数规模以上的大模型已发布79个,目前与美国保持同步增长态势。



截至2023年6月底,全球人工智能领域独角兽中,108家来自中国,占全球总数的37%。



国内玩家也在积极下场布局AI生成视频。


字节跳动于去年11月18日推出了文生视频模型PixelDance。基础模式下,用户需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频。


图片来源:PixelDance官网


阿里紧随其后也上线了Animate Anyone模型,需要一张人物照片,再配合骨骼动画引导,就能生成自然的动画视频。


图片来源:Animate Anyone官网


23年末,百度发布了文生视频工具“度加剪辑”,号称“可以一键获取最新热点、ai生成文案、一键生成视频”。百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。


图片来源:APPStore


Sora的发布,能否鞭策中国企业进一步突破技术难关,我们不妨拭目以待。


Sora发布前,我国影视行业已经在应用文生视频,作为拍摄辅助。AI可以低成本快速产出分镜,用简单动画预演出演员走位、取景、摄影机角度与运动大方向,提高拍摄效率。而当AI的精细度可以直接参与后期制作,带给行业的冲击是颠覆性的。


关于相关从业者是否会被AI取代,网上争论不断。不过对于Sora这样的复杂系统,人是不可替代的生产力要素,未来,做“工具人”,不如做创造和使用工具的人。


据统计,全球1/7的人工智能顶尖人才在中国,不过相较于产业的迅猛发展,人工智能人才缺口还是非常大。根据中关村产业研究院测算,到2025年,预计北京AI人才需求量为54万人,缺口将达37万,特别是急缺计算理论、人机交互、安全与隐私、计算机系统等方面的顶尖学者。



人工智能也成为近年来新增开设数量最多的专业之一。2018年教育部批准设立人工智能本科专业。经过四轮增开,截至2023年共有499所高校设置人工智能本科专业,其中不乏清华、北大、浙大、复旦等顶尖院校。



AI技术大势滚滚而来,无论于国家,于企业,还是于个人,主动拥抱或许是最好的选择。

分享、在看与点赞

只要你点,我们就是好盆友

继续滑动看下一个

图数室 | Sora又把中美AI的差距拉大了吗?

图数室 图数室
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存