查看原文
其他

AIGC 加持,2023 年元宇宙赛道如何快速落地商业场景? | Founder 100

Founder 100 Founder Park 2023-03-21

在游戏之外,一直在寻找具体落地场景的元宇宙赛道,如今正得到更多品牌的青睐,成为全新的品牌营销阵地。

以 2021 年成立的元象XVERSE(以下简称元象)为例,在 2021 年底与腾讯音乐娱乐集团 TMELAND 打造的虚拟音乐嘉年华,成为百万级用户在线的超大型虚拟演唱会与直播「样板」后。他们连续与央视、一汽大众、 阿迪达斯、百事可乐、雪碧、肯德基等众多品牌合作,为他们策划了元宇宙的品牌活动。

为什么品牌会选择元宇宙?元象联合创始人王楠认为,「一方面是希望可以打入年轻用户群体,他们是从小熟悉和喜爱游戏、3D 内容的一代,这是一种跟年轻用户沟通和传递情感的新方式。另一方面,元宇宙除了自带科技潮流感,在内容形式上也确实比较抓人眼球,能利用 3D 新视觉和互动新玩法,让品牌跟用户建立更深层次、更长期的联系。

而元象自己,也针对元宇宙急需的,乃至未来内容发展的必然趋势——3D 内容,基于「端云协同 3D 互动」的技术路线,打造了一个从 3D 内容生产到消费的一站式平台。为什么会选择这样的路线,「难而正确的事。这跟我们的愿景息息相关——希望每个人能自由『定义你的世界』,这必须极大降低 3D 内容制作和传播门槛。」王楠是这么回答的。

如何快速切入前景仍不明朗的元宇宙赛道,元象的选择过程或许是一种回答。

而关于 3D 内容如何能够快速生产,AIGC 如何介入 3D 内容的生产,元象也有自己的思考。

参与本次访谈的嘉宾有:
王楠,元象 XVERSE 联合创始人、商业拓展部负责人

黄浩智,元象 XVERSE 技术合伙人


  1. 构建元宇宙要解决两个核心关键问题:一是存储和计算,二是真实。

  2. 元象自研的端云协同,是针对纯终端算力和存储不够、纯云端成本高等问题提出的一个综合解决方案。

  3. 社会发展,并不是一维文字一定被二维图片取代,然后被 2.5 维视频和 3D 互动内容取代,而是各司其职,在同一个世界共存共荣。

  4. 我们的终极愿景就是「定义你的世界」,希望用户能像制作短视频一样轻松制作出自己的 3D 世界,随时随地不受限制地发布 3D 内容。

元象 XVERSE 目前已落地商业案例一览


01

基于端云协同,

提供生产到消费的一站式服务

Founder Park:与其他元宇宙产品相比,元象的产品核心突破在什么地方?你们产品迭代经历过什么样的过程?

黄浩智:我们产品体验特色,归纳起来就是:轻、快、美等特性。

虚拟世界的「美」在于有庞大丰富性,以及逼真材质和真实光影的感觉。我们去年 11 月开放日的演示上,第一次实现日光到蓝光两个皮肤的瞬间切换。在同一个地方,用户马上会有两种不同感受。而以往的手机游戏里,切场景要很长时间。我们还能快速构建大世界,实现各种材质和模型的替换,再做轻量计算。

而逼真上,我们虚拟人的动作是靠视频动捕,口型由语音驱动,声音是 AI 合成,所以看着动作自然,声音听起来好像有一点点假,这是故意为之。我们希望以后不依靠真人直播,用 AI 也能驱动一个看着很自然的虚拟人。

这种体验还需要快速制作、多人体验、轻量进入。我们此前已经支持 10 万人同服,目前迭代提高到 20 万人同服。不过要保证多人同场+手机一点即进的轻量状态,还要保证整个光影丰富度和逼真感,挑战不小,「端云协同」技术还需要不断打磨。

Founder Park:元象定位是 3D 内容生产到消费一站式平台,行业内的很多公司都强调自身的边界,元象为什么要做「一站式」,这样会不会太重?底层的思考是什么?

王楠:我们现在做一站式的 3D 内容生成与分发平台,看起来有点重,我们叫难而正确的事。这跟我们的愿景息息相关——希望每个人能自由「定义你的世界」,这必须极大降低 3D 内容制作和传播门槛。

另一方面,我们团队也有这个技术背景。元象创始团队来自腾讯,参与了 QQ 空间海量存储时期(2000 年日均上传照片超五亿张)、除夕夜微信红包百亿级高并发时期,参与腾讯 AI Lab 建设等重大技术项目,见证从存储驱动向计算驱动的技术转变。

所以从技术后端,我们做了三件事:一是创作工具,即内容编辑器;二是渲染引擎,背后是元象自研的端云协同 3D 互动技术;三是跟云打通的面向客户的线上平台。

从面向客户的前端,我们有企业方案,一是营销元宇宙,包括发布会、营销空间等;二是产业元宇宙,包括教育展厅、线上会议、招聘面试等;三是社交元宇宙,支持 20 万用户同服在线,是人足够多的虚拟社交体验。另外我们还做了面向个人的元宇宙产品,针对生日会、婚礼、纪念日等庆祝活动。

一汽大众行业首个类游戏元宇宙发布会 | 来源:元象XVERSE 公众号

Founder Park:对于元宇宙,每个公司的理解似乎都不一样,很难达到统一,在你们的理解中,它应该具备哪些关键词?

黄浩智:构建元宇宙要解决两个核心关键问题:一是存储和计算,二是真实。

元宇宙能被称之为一个世界,是因为其足够庞大丰富,这就涉及到大量的存储,以及这些内容的表达和呈现,这些效果对存储和算力的要求都很高。其次是要真实,要实现渲染的真实,虚拟世界的拍照远比现实世界复杂,需要考虑世界的规律、光照的反射等等,如果处理不好,很容易导致虚拟世界里面拍照时光影与真实世界不同、违背自然物理规律。即便是做一个卡通或艺术风格的东西,也要在现实上抽象处理。我们认为有吸引力的内容一定跟真实有联系,观众才能产生共鸣。

王楠:我认为的真实,不一定是要现实中存在的,而是要给用户更强烈的代入感和沉浸感。如果虚拟世界规律与真实世界相同,大众就不需要再去理解和适应规则。此外,还有一些小众群体,可能会希望有超越现实的体验,在虚拟世界造梦。

未来元宇宙内容关键还是要持续降低创作门槛和使用门槛。我们 2023 年会推出创作工具 X-Creator,希望更多人能参与;除了 UGC,AIGC 也是内容效率提升关键,我们会继续投入。

Founder Park:你们自研的「端云协同 3D 互动」目前成果如何?为什么会选择这样的一种技术路线,这是主流的路线还是你们的独立思考?

黄浩智:元象自研的端云协同,是针对纯终端算力和存储不够、纯云端成本高等问题提出的一个综合解决方案。我们会把角色动态相关的内容放在端上渲染,因为人对角色相关的延迟很敏感,而云上串流会延迟,所以用端快速反馈。这很类似手机游戏引擎在做的事,就是进行各种形式的优化和成本压缩。

然后我们把大规模场景、复杂光照放到云上计算。通过预计算,比如光照烘焙,把光路传播存储下来,在普通用户之间共享计算结果,可以降低成本。云上这些渲染结果下发到终端要走串流,我们有编解码专家研究如何节省带宽,把这些结果及时传到终端,再跟终端计算结果融合在一起,通过整个链路的极致优化,我们能做到成本比云游戏更低。

元象希望兼具产品轻、快、美三个特性。拆开来看,市面上都有,有做大场景、有做电影材质,但很多就没法做到很轻,没法手机一点就进。所以能同时做到三点的,市面上很少。

端云协同的技术优势 | 来源:元象XVERSE 公众号

王楠:也要考虑成本。不计成本的话,市面上确实会有一些方案。但评估商业化可实现时,低成本就很重要。用云游戏方案开一场十万人同时在线的发布会或演唱会,成本非常高。所以我觉得元象方案或许能更好推动行业 3D 化实现,用较低成本让海量用户有轻快美的 3D 体验。

黄浩智:未来规划上,技术上端云协同远未成熟,还需进一步探索。我们目前集中做动态,更多关注角色,其实动画或物理仿真也有待加强。此外,我们也在考虑是不是完全用云做渲染,端做角色,这里端云具体如何协同也在不断迭代。

王楠:从用户场景角度看,接下来还有一个可能是虚实融合,如何通过技术让虚拟和真实世界连接,也很值得期待。


02

内容 3D 化是

未来的必然趋势

Founder Park:3D 内容创作的核心挑战是什么?3D 内容为何生产门槛高,内容呈现门槛也高,具体难在哪里?

黄浩智:用户最早期接触的 3D 内容一般是游戏,但开发周期很长,通常以年为单位。而从 3D 具体生产方式来看,一是完全来源于现实,用扫描或重建模型,包括材质、光影作用、动作捕捉等;二是凭空设计,比如动画,需要一些创作工具辅助艺术家实现。近些年来涌现出了很多材质、场景整合等工具;三是当下新兴的 AIGC,根据已有数据做衍生,创作更多新内容。这些都需要专业人才、专业工具,所以制作门槛也高。

3D 内容呈现上,手机游戏相对于 PC 端,在画质和复杂度上做了很多减法,更多是在做一些模仿。近年来云游戏越发受关注,是利用云上大规模计算和存储解放终端,把终端变成看视频的工具,但纯云端渲染背后需要大规模算力,带宽网络传输成本不菲,短期内估计无法大规模推广。我们自研的「端云协同」路径,就是想综合利用云上和端上的计算资源,希望短期内做到足够轻量化,让每个人都能一点即进。

Founder Park:3D 内容上,并不是一个新潮流,3D 本身就有较长的发展时间。比如,在 1990 年代初期,科学家和工程师们预判虚拟现实 VR 将会提供可视化数据的新方法,成为与计算机交互的新界面。1993 年末,软件工程师马克·佩斯和安东尼·帕瑞斯创建了一个 3D 网络浏览器的雏形。随后 VRML 这个术语被提出,全称是虚拟现实建模语言。VRML 试图通过互联网动态链接到虚拟的 3D 世界,创建人们想象中的元宇宙,人们可以在这个世界中自由的聊天、交易、学习和购物,但之后却失败了。为什么之前 3D 内容没有发展起来?

黄浩智:3D 内容一直在迭代,呈现出螺旋式的渐进发展。大家近年来开始关注元宇宙,我觉得是背后有三个技术契机:一是英伟达推出的 GPU,推动了实时光线追踪技术发展,逼真程度大幅提升。二是云计算发展,出现了云游戏到端云协同等计算上的尝试。三是 VR、AR 头显技术的发展,终端设备演进反过来推动 3D 内容发展。

王楠:从应用角度,游戏已经基本实现 3D 化,但游戏行业也比较有钱,随着技术发展,3D 内容在手机上实现了一点即开,让 3D 内容有机会走进更多行业,包括品牌营销、音乐娱乐、培训教育等,我们非常期待各行业的 3D 化。

Founder Park:内容 3D 化是必然趋势吗,相比 2D 形式来说,3D 内容的独特价值是什么?结合你们的场景应用实践,现在对 3D 内容有哪些真实的需求?

王楠:我们看到随着社会发展,并不是一维文字一定被二维图片取代,然后被 2.5 维视频和 3D 互动内容取代,而是各司其职,在同一个世界共存共荣。有一部分场景,特别适合用 3D 互动形式展现;而随着技术发展、门槛变低,还会有越来越多 3D 内容产生。

我觉得 3D 主要有三方面的独特价值:一是从重效率到看体验,比如从淘宝快速下单,到进入虚拟商店和体验品牌故事,可以逼真现实,也可以超越现实,比如把场景设定在雪山或者沙漠,就可以是完全不同的表达。二是从单向到多向,不管是文字、图片还是视频,更多还是点击、滑动、暂停、快进这样的简单交互,而 3D 互动就变成人、场、物之间多向交互,可以选择不同道路,找自己想看想玩的东西。第三是从限制到自由,以前是跟随视角,类似听课,而 3D 交互是主观的,能脱离物理限制去自由选择和表达。

3D 内容需求的话,企业和个人都会有类似需求。我们第一个客户是腾讯音乐娱乐集团(TME),当时合作就是看中我们能同时实现轻、快、美的能力。我们和 TME 在 2021 年底合作了国内第一个元宇宙音乐跨年嘉年华,不到三个月时间里,打造了一个场子足够大、上百万粉丝、玩法很丰富的嘉年华,短时间内打磨了产品和团队,也打响了我们在行业里的知名度。

之后我们就和 TME 持续合作,你能看到从一个到多个、一次性到长期持续迭代的趋势。比如后来陆续为阿迪达斯新品发布会、央视虚实融合晚会、百事可乐虚拟偶像出道、可口可乐粉丝节运营等策划了全新元宇宙玩法。


03

为品牌提供服务是

当前元宇宙的主要落地场景

Founder Park:有人认为这一波元宇宙带来的其实是品牌红利,创造新的体验,满足了品牌发展的诉求,但是可能这一波过去之后就没有了,你们是怎么看的?

王楠:品牌选择元宇宙,一方面是希望可以打入年轻用户群体,他们是从小熟悉和喜爱游戏、3D 内容的一代,这是一种跟年轻用户沟通和传递情感的新方式。

另一方面,元宇宙除了自带科技潮流感,在内容形式上也确实比较抓人眼球,能利用 3D 新视觉和互动新玩法,让品牌跟用户建立更深层次、更长期的联系。比如我们跟一些珠宝品牌合作,不仅可以 360°翻看高精度钻石产品,也策划了元宇宙婚礼等社交互动,让线上购物甚至能超越线下。

可口可乐首个元宇宙粉丝节 | 来源:元象XVERSE 公众号

还有就是,很多品牌其实并不只是把元宇宙当做单纯营销的工具,他们认为元宇宙本身就有很多和客户契合的点,比如某一款鞋可能是元宇宙的限定款,或者在推出实物产品前,先通过游戏或者虚拟世界进行反馈和测试,之后会有更多这样虚实结合的打法,去影响真实世界。

长远来看,不管是短视频、直播还是购物,元宇宙都是很重要的一个出口。通过提前布局元宇宙,可以占据用户的心智和市场,积累更多经验和数据资产,这也是品牌尽早介入元宇宙的一个原因。

黄浩智:3D 电商是我们一直关注的领域,结合元象的技术,我们不仅想做单个物品的 3D 建模,还想让整个商场 3D 化,甚至跟朋友云逛街,创造身临其境的购物体验,拓展电商想象空间。

Founder Park:从 GPT-3、Bloom 的文本生成,DALL-E 和 Stable Diffusion 的图像生成,以及 RunwayML、Make-A-Video 视频生成,各类生成式 AI 模型的出现,为内容创作带来了更多的可能性。其中 Stable Diffusion 的开源更是带来了新一波的 AIGC 的狂欢。目前 AIGC 在 3D 内容生成方向发展怎么样?你们有什么样的思考?

黄浩智:元象一直有关注 AIGC,其发展跟语言理解模型成熟度和新生成模型出现都有关。GAN 和之后出现的 Diffusion 模型结合,可以用文字生成不同风格的 2D 图片。而在 3D 内容上,AIGC 成熟度较低。这是因为文字到 3D 内容的数据相当缺乏,而且文字和图片搜索引擎已有,但大规模 3D 搜索引擎未普及,仅在专业领域供专业人士使用。

随着 3D 创作工具的发展,3D 内容数据库将逐渐丰富。基于文字搜索给 3D 内容打标签的形式在逐步发展,折中手段还可以用文字和图片已建立的联系,将图片作为跳板关联 3D 内容。这将依赖重建和对图片的理解,也包括了一些 3D 视觉相关技术。

元象也在做一些尝试,比如用自然语言描述设计 3D 角色的服装。或者用程序化生成大世界,在建一座山时,向阳面和背阴面的植物不同,会总结这类自然规律,用到自动化生成里。这里深度学习是作为一个步骤来推动自动化生成的。这两种结合方式未来都值得继续探索。

元象的自动化生成流程 | 来源:元象 XVERSE 公众号  

除了自动化生成,元象目前已经能做到基于 2D 自动生成 3D 版本的道路(路网),并在此路网基础做场景和物品设计。重点还是在虚拟人上,比如角色动作,可以用动作捕捉让 AIGC 学习,还可以根据音乐让角色自动跳舞,自动生成手势等技能;除动作之外,我们的语音合成团队也在不断进行新的尝试和突破,丰富人物呈现。

Founder Park:围绕 3D 还有哪些关键技术的进步是你们比较关注的?比如 NeRF 技术、AI+图形学 的可能性等。

黄浩智:未来一段时间,云上会持续面临算力不足和成本高的问题,我们会继续迭代端云协同方案。而云上计算的进一步迭代,靠芯片行业支撑,也要跟 5G、网络传输等基础设施联动。

随着硬件迭代,在云计算背景下,图形学也出现了有趣的方向,比如此前单机能渲染的真实度到了 80 分。那是否能用 10 台机器做渲染仿真,到 90 甚至 100 分的状态,都是未来值得关注的方向。

元象在渲染过程中有很多中间结果,也可以做压缩,让 AI 学习数据,在此基础上和图形学结合。以游戏行业为例,传统是运行时根据当前和下一个动作大概预测之后动作,可以避免设定更多动画,但有个弊端是需要在终端存储大量动作。而近两年 AI 与 motion matching 结合,其实不用存储庞大数据,而是用压缩把动作取到神经网络里。

除了动作,物理仿真、渲染也有类似思路。未来不是说用深度学习直接实现输入到输出,而是通过它和传统方法结合,完善中间步骤,这也给 AI 与图形学结合带来了更多可能性。

Founder Park:随着独立游戏引擎和实时服务套件在过去 20 年的发展,Roblox、Epic Games 等公司将这些经验组合成了-一个新的模式:虚拟世界集成平台 (Integrated Vireual World Platforms. IVWP),比如 Roblox、《我的世界》和《堡垒之夜》创意模式。元象未来会成为 IVWP 吗?你们对于元象 XVERSE 这家公司未来实现的终极画面想象是什么?

王楠:创业之路是多变的,途中会有各种各样的挑战机遇,但我们愿景不变——降低 3D 内容的创作和消费门槛,让每个人都可以自由定义自己眼中的世界。长期来看,我们期望推动 3D 内容和元宇宙产业发展壮大,让更多人、更多企业参与到元宇宙建设和体验当中。

黄浩智:我们的终极愿景,是用户能像制作短视频一样轻松制作出自己的 3D 世界,随时随地不受限制地发布 3D 内容。

*以上嘉宾观点不代表 Founder Park 立场,也不构成任何投资建议。


公司:元象XVERSE

领域:元宇宙、3D 内容、AIGC

融资状态:A+轮融资

主要投资人:红杉中国、高榕资本,五源资本,高瓴创投,腾讯投资

官方网站:http://www.xverse.cn/


元象 XVERSE 技术合伙人,清华大学计算机博士,图形学引擎与计算机视觉领域算法与工程专家。目前领导开发云协同的下一代图形引擎,AI 驱动的 3D 内容生产工具集。此前曾任腾讯 AI Lab 图形学组长,参与艺术滤镜、人体姿态估计、虚拟人、神经网络渲染、真实感渲染等技术研发。同时,长期担任 CVPR、ICCV、ECCV、TIP 等顶级国际会议和期刊的审稿人。


元象 XVERSE 联合创始人、商业拓展部负责人,前腾讯技术工程事业群(TEG)战略负责人、前麦肯锡咨询顾问、36 氪「X·36 Under 36」S 级青年创业者、TEDx 演讲嘉宾。2012 年她毕业于美国麻省理工学院,拥有数学计算机及管理学双学位。曾参与领导制定腾讯在人工智能、机器人、云计算、芯片及研发效能等前沿技术领域的战略;协助创建了腾讯首个企业级 AI 实验室、首个企业级机器人实验室;协助业务打造了国家围棋队 AI 陪练「绝艺」、王者荣耀游戏 AI「绝悟」、国风 AI 虚拟人「艾灵」、中国首个临床用 AI 显微镜,以及领先业界的 AI 种植方案 iGrow 等;她还协助推进了腾讯对芯片企业的首个投资、首个自建实验室,以及三款业务用 AI 芯片自研等工作。


元象 XVERSE 于 2021 年初在深圳成立,致力于打造下一代 3D 内容生产与消费一站式平台,提供大、真、多、轻的全新元宇宙体验,助力娱乐、社交、营销、电商等各行业 3D 化,实现每个人自由「定义你的世界」的愿景。元象突破业界传统的端、云方案,自研「端云协同」3D 互动技术,融合图形学、高性能计算与存储系统、音视频编解码、实时通信和人工智能算法等多项核心技术。公司员工多来自腾讯游戏、网易、Adobe、微软等互联网或技术大厂。元象于 2022 年 3 月完成 A 轮和 A+轮共计 1.2 亿美元融资,投资者包括高榕资本、五源资本、高瓴创投(A 轮领投)、红杉中国(A+轮领投)、淡马锡和 CPE 源峰等。




更多科技创业者的采访,欢迎在
小宇宙或者苹果播客收听我们的播客节目「Founder 100」。
Founder 100 栏目一直在招募优秀的科技创业者来做客我们的直播间,如果大家对于这档栏目感兴趣,也有意向想要来分享自己的故事,欢迎大家长按下图,识别图中二维码,填写报名申请单。
更多阅读

转载原创文章请添加微信:geekparker

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存