从鲁班的视觉引擎谈起

Original shadow 无界社区mixlab 2022-06-06

最近云栖社区更新了一篇星瞳关于《鲁班视觉引擎》的介绍文章。

视觉引擎的目标是可控视觉内容设计和生成，让 AI 做设计，使数字内容制造变得高质、高效、普惠、低成本; 终极目标是“所想，即所见” ，目前主要探索的应用：图像设计与生成、视频编辑与生成、图形建模与生成

部分内容引自星瞳的ppt。

本文从3个方面谈谈智能设计与视频广告的结合：

1 鲁班的图像设计与生成

2 智能设计局限与突破

3 智能设计的4个方向

3.1 应用设计大数据“复制”设计

3.2 特定风格的算法驱动型设计

3.3 基于图像的智能排版引擎

3.4 基于pix2pix的生成设计

1 鲁班的图像设计与生成

鲁班目前的图像设计与生成，主要是 banner 类的图，核心是素材搭配求得最优组合。把 banner 拆解成背景、主体、装饰等，检索，然后组合。按图层拆解设计图，结构化设计数据，然后检索“库存”，按照输入的布局组装检索到的素材，评估及优化素材组装后的效果，直至最终生成最优的素材组装结果。

引自星瞳的ppt

A 输入（显式输入）：

图片：商品主图

文案：化妆会场5折起……

风格：运动

构图：左右

配色：黄绿

大小：1125*352

B 特征化：

image

text

style=sport

layout=LTRI

color=YG

size=3:1

C 规划：

16*16的特征图

D 行动：

256*256

E 调优：

1125*352

F 可视化

2 局限与突破

应用设计大数据，“复制”设计。首先需要准备大量的打好标签的素材，设计结果取决于素材库的“库存”质量。设计过程被简化为组合素材的过程。所以对应的人类设计师水平是“ P5 ” ？设计是极富创意的过程，除了解决问题，利用设计可以使用的元素，创意性地提出解决方案，是高水平设计的价值所在。所以，鲁班也在尝试像素级生成以及根据主题生成文案，让 AI 更具有创造力。这方面的探索追求的是设计的从0到1。

3 智能设计的4个方向

这里 mixlab 总结下智能设计目前的实现方式。

3.1 应用设计大数据，“复制”设计

从半结构化的设计图，例如 psd 文件、sketch 文件等，提取设计数据，包括图片、文案、布局、色彩，形成设计大数据，然后通过搜索引擎技术，枚举各种组合，并评分，最后得出最优结果。 mixlab 有一个简化版的实现文章：DIY一个人工智能设计师。

3.2 特定风格的算法驱动型设计

更像是算法驱动型的设计，把特定风格图像设计的设计规则算法化，直接应用算法于生成设计。例如 mixlab 近期尝试过的glitch 风格的字体生成器。

3.3 基于图像的智能排版引擎

微软研究院发的一篇论文，专注于杂志风格封面的版式设计，是基于图像的 saliceny map 做的自适应布局方案。Mixlab 在去年也专门更新了一篇文章介绍。

3.4 基于pix2pix的生成设计

只要是图片与图片之间的转换，我们都可以尝试 pix2pix 来生成试试。在《Pix2Pix与人工智能做设计》这篇文章， mixlab 介绍了 pix2pix 的一些探索应用：

预测影片的下一帧，我们是不是可以把一张图片变成 GIF 图；去除马赛克，随意放大 BMP 图片，再也不担心精度不够了；通过手绘生成名画，比谷歌的 auto draw 先进了点，当然还有各种通过手绘生成的东西，比如猫、袋子、鞋子、人物肖像画；去除图片的背景，类似于抠图，也可以采用 pix2pix 的方法进行；生成配色方案，把配色当成图片，进行图片的生成，产生新的配色方案；从侧脸预测正脸，这样以后只要随便拍一张照片，都可以在三维空间中实时建模出来；

以上是4个智能设计的方向。在 mixlab 的微信群或知识星球都有定期的探讨。设计的从0到1，接下来可以试试强化学习的思路，把设计的规则限定好，在有限的规则中进行设计的从0到1创造。

本文同时在知乎专栏：《人工智能+设计修炼指南》发表。

近期文章推荐：

用代码生成Glitch Art风格的抖音字体

TensorFlow.js、迁移学习与AI产品创新之道

关于【科技中的设计师】，这可能是最走心的一篇文章

关于公众号：

本公众号定期更新人工智能&设计&科技内容。谈点设计，敲点代码，偶尔创作点人工智能实验产品。

*mixlab群友福利：

群里聚集了一批人工智能、设计、机器人、前端、后端、产品的跨界人才。

今天为群里的小伙伴发一则寻人启示，他的公司位于上海，主擅建筑机器人控制和设计集成，为地产和建造公司提供机器⼈建造解决方案。团队由多位美国、澳洲的海归博士和跨专业人才组成，天使融资近千万，前景光明，求贤若渴。

高级前端开发工程师

职责描述

• 主要负责机器人控制平台的前端开发工作

• 能使用各种前端技术构建WebApp

• 熟悉WebGL / ThreeJS 等3D引擎者为佳，对三维图形技术在网页中的应用感兴趣者优先

• 有建筑三维软件如Rhino，Revit，Sketchup等使用经验为佳，有U3D开发经验的加分

• 配合后端工程师，高效得完成项目开发

• 密切配合设计师和产品经理理，保证用户的优质体验

• 解决各种浏览器的样式表和JS的兼容问题

职责要求

• 两年以上工作经验，熟悉前后端分离的开发模式

• 精通HTML5 / CSS3 / JavaScript，能独立完成JavaScript的编写，调试和优化

• 熟悉WebGL / ThreeJS，或有使用其他WebGL引擎的工作经验者优先考虑

• 熟悉React Native 等一种或多种框架，能设计编写常见的WebApp为佳

• 拥有良好的代码习惯，逻辑思维清晰，具有愿意挑战困难的研发精神

• 对前端项目工程管理有一定了解，熟悉Gulp，Webpack等工作流管理以及打包工具

待遇

工资：15 - 25K (有能者面议，老板说靠谱的，工资可谈）

简历邮箱: hydemeng@roboticplus.com

或者直接联系mixlab也行。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

从鲁班的视觉引擎谈起

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

从鲁班的视觉引擎谈起

您可能也对以下帖子感兴趣