原创 数字生命卡兹克 数字生命卡兹克
说个超级有意思的事。
今天凌晨,一个AI设计类的垂直Agent工具,在X上爆了。

可以直接看一下他们的片子。
可能很多老粉都知道,我其实是设计师出身,所以对这种AI设计类的产品,还是Agent的产品,本身就比较关注。
不过比较尴尬的是,他们又是那种内测制,要排队。
不过好像海外都看到Manus的火爆了,所以他们也搞了邀请码机制,关注评论就送码。

我也就去随手留了个言,大概意思就是:
我是一个中国的AI博主,有一点名气,对Lovart产品很感兴趣,希望可以获得内测资格。

结果,没一会,发现我的X,真的收到了一条私信。。。
说实话,我对这种机会一般是不抱有啥希望的,结果没想到,居然还真的,拿到了邀请码。

本来都准备睡了,于是果断起床,一手体验了一波。
这个设计类的Agent产品,Lovart。
在玩到早上6点以后,我想说,Lovart真的是有一点东西,虽然因为是内测版,在很多细节上,做的还有一点粗糙,但是大的框架,已经很看到了。
而且,是真实的有用。
这是我做的一些小case。



网址在此:https://www.lovart.ai/

一进来,就是一个非常有视觉冲击力的主页。
直接点Get Started就行,你们可能还没有资格,就正常按照流程申请排队就行,当然,你也可以去他们的X评论区留言看看,说不定也会直接给你发。
发完就在这个邀请码的地方填就行。

如果你有资格了之后。
一进来,是一个非常像AI Chat的界面。

很简洁。
但是其实我在各种场合表达过很多次观点,在我的认知里,从来没有什么AI+行业,而是行业+AI,就像我之前写飞猪那个垂直的旅游Agent的时候。
行业里的Know How,才是最重要的,你到底是有什么痛点,有什么需求,有什么场景,什么时候该调用什么模型,什么时候该调用什么工具,这些东西,叠加你的AI的能力,才是真正的护城河。
所以我对Lovart,是真的还有一些期待的。
我们可以在对话框中,随便跟他提一个设计要求。
比如我就写了一段:
帮我画一组“猫猫去世界各地旅行”的插画系列,总共8张图,每张都画一只米白色、站着走路的Q版猫猫,穿着当地的传统服饰,比如去日本就穿和服,去法国就带贝雷帽,去西安就穿唐装。猫的形象要一模一样,要站在画面中间偏下,后面是有代表性的地标,比如东京的街道、巴黎铁塔、西安城墙等等,但背景不要太复杂。画风要偏日系插画,线条细一点,颜色柔和一点,每张右下角能加一句旅游口号,比如“Spring in Tokyo”。整套适合做小红书日签那种风格,尺寸是3:4。
发给Lovart之后,我直接录了个屏,大家可以看一下,就是原来稍微有点慢,一个任务三分钟,我就给加了2倍速。
大家也可以看看复现过程:https://www.lovart.ai/r/f1mjl6f
8个小猫咪,是不是超级可爱的。

毕竟是Agent产品,中间的思考过程,其实非常有趣。
在收到我的任务之后,其实不同于所有的其他Agent产品,它做的之一步,永远是匹配风格。

我这个任务,虽然显示没有匹配到风格,但是我还是想说下。
他这个之一步,是完全没毛病的。
这个其实就是设计任务场景,跟其他的场景不太一样的地方了。
因为在设计场景里,画风就是影响更大的那个爹,就是更高决策。
你风格一旦错了,后面哪怕你画得再好,都是废图。
就像你做一张海报,客户说想要极简风,你整了一套写实叠素材+渐变爆炸+颗粒反光上去,你就是在纯种找骂。
风格不对,全盘否定。
风格对了,哪怕细节差点,大家都觉得你是在一个频道上。
这就是我所说的行业的Kow How,如果你是不懂这个行业的人,你可能意识不到,风格这事,会有这么高的优先级,甚至高于怎么把这玩意画出来的优先级。
我自己写的风格其实比较模糊,但是如果我们非常明确的写一个,噪点插画,它可能就会匹配上了。

而且这效果确实很好。
我大概扒了一下,这应该是1个LoRA模型。
所以在Lovart的判断逻辑里,应该是会先判断你的设计任务所要求的风格,在他们的库里去匹配是否有LoRA模型能够满足,如果能满足的话,不管从效果还是推理成本的角度,都应该用LoRA模型去做执行。
如果匹配不上的话,才会用其他的大模型比如Flux、GPT4o等等来去画图。
这个逻辑完全没毛病,就是不知道他们库里有多少LoRA。
在匹配之后,其实就是创建执行计划了。

不过有时候,匹配风格这一步,也有可能会被Lovart放在执行计划里,不过概率比较小。
我这个画猫咪的小任务,就被拆成了3步,获取知识、用GPT4o生图、结束。
获取知识这块很有意思,其实就是把我的Prompt,变成了一个超级详细的Prompt。
我必须要全部放出来给你们看,这也是我之一次见到这么详细的在AI上的设计拆解。。。

不仅写了通用性的设计规范,确定好的IP的样式和总体布局,然后,还列了8个城市,给每个城市,单独固定了调色板和单独的Prompt。。。

真的,要是每一个设计师,在做一些系列化设计的时候,都能把设计规范和一些差异化的点,描述的这么清楚,那真的不用浪费那么多时间去做一些无用的所谓的视觉统一的工作了。。。
最后,是选择调用了GPT4o,一口气把八张图,全部画了出来。

效果非常好。
在我自己一夜的测试过程中,除了GPT4o之外,还有Flux、Gemini,还有Poster Gen,做海报的时候经常会用的,但是我查半天也不知道底层是什么模型,感觉是他们自己做的。

最后,全流程Ending,Lovart,把所有的图,给你放在了左边的画板上。
并且,二次编辑的功能,做的还蛮全的。

顶上的放大、扩图、抠图、消除、修复、涂抹模糊,主流的功能,基本全都支持了。
而每一张图,也可以单独点击,进行选区选择。比如这个城市,我希望在右上角加一些和平鸽,peace and love才是真正的主旋律。

我涂上右上角的区域,就可以直接点下面的编辑,也可以添加到对话框中进行精准修改。

发送给他,很快,他就自己把和平鸽加上了。

除了小猫旅游之外,我又让他做了一些海报。

还做了一整套游戏UI,我超级喜欢的蒸汽波+复古像素的风格。是我心中的404世界,那种在虚拟空间中,被废弃的城市。

而且在我们日常设计任务中,其实还有很多尺寸延展的场景的,比如这个404世界的首页。

我们可以让他把这个竖着的,再延展成1:1,3:2,16:9这3个尺寸。
几分钟以后,他就全部给你改好。

可惜就是出现了一些语义理解的问题,最后的16:9没给我生成,还是按3:2去生的。
同时,这里需要特别注意,如果是是写的英文,在英文里,这种延展或者适配设计,一定要写Generate,而不是写Extend,Extend不是延展,是扩图,所以,如果你跟他说Extend的话,会很崩。
走的是纯扩图的逻辑,直接没眼看了。

甚至我还发现了,一个非常有趣的事,就是,你可以直接把生成的海报,扔到对话框中,然后说:Generate an editable text version of this poste。

你就会发现文字和背景图,真的被分离了,出来了一个可编辑的版本。
这个文字和背景分离的功能,其实是个超级刚需,做过AI绘图的都知道,文字有时候是要重改的,明明手敲就行,但是很多时候,AI出来的就是一张,根本改无可改。
但是如果我们一句话,能把字体样式、字体本身、背景图给分离出来,那绝对是一件所有设计师有巨大加持的大事。
只不过现在Lovart虽然有了这个意思,会把字符、位置几乎完美的还原,但是把背景做了一些很细节的微调,字体样式也还没有保持住,不过至少看到了希望,未来可期。

而且,他们不止能传图改图,甚至他们还集成了可灵、11labs、suno,可以把图片,生成视频,再配上音乐和配音,然后剪辑在一起。。。
比如我就扔了一张非常经典的口红战神Dior999的产品图上去。

给了一段Prompt:
我上传了一张高品质的Dior999的口红产品图,请基于这张图的质感和品牌定位,帮我生成一支专业感极强的Dior999品牌广告片段,时长控制在30秒以内。
整个广告需要延续这张图的调性,镜头语言可以参考过去Dior、香奈儿、兰蔻等高端美妆品牌的广告片风格。
请生成完整的视频脚本分镜图,包括文字、画面描述和转场逻辑。然后把这些图转成视频,根据图片主题,加背景音乐。
Lovart先分析了图像,然后写了一段非常详细的,广告视频脚本。

然后,画了所有的分镜图,和一个可视化的脚本。

随后,他就给这些图片,都用可灵转成了视频,还用Suno,生成了BGM音乐。

在跑了十几分钟以后,一个还算好看的Dior999的广告视频,出现了。
真的,搓个小的广告片demo,Lovart真的没啥问题。
核心能力,其实还是来自于设计领域的Know How。
用Agent来生成视频+配乐这件事,其实不是啥难事,很多通用Agent都可以做,接接几个API或者MCP就行,但是大家可以去对比一下一些通用的Agent产品,用相同的产品图和Prompt,生成出来的视频审美和质量。
其实你就能看出来差别。
本来我还想用这个功能,来直接搓一段故事脚本,但是我发现,它的人物一致性和影视级别的镜头语言,还有一些进步空间,就作罢了= =
最后的最后,我还是想来聊聊Lovart的意义。
他当然,还有很多的细节问题和不足。
就像我当年之一次看到Figma,意识到设计协作这个赛道会被重写一样。
今天之一次看到Lovart跑完需求→生成→尺寸延展→图文分离→视频合成→二次修改这一整链条,我也觉得:
在Agent的加持下,设计的工作流,未来也不一定是现在这样了。
甚至设计师的定义,可能也是另一个描述。
在没有所谓的设计Agent的时候。
你跟任何AI说我要一张图,它给你的是作品。
但是,在Agent的加持下,你现在跟Lovart说我要一张图,它给你的是产品。
是交付,是资源,是资产。
未来,直接一句话,生成潮玩IP、生成这个IP所有的延展、做完视频、直出3D模型,并不是不可能。
可能,就在很快的未来。
现在的图景,非常的清晰。
每一个垂类赛道,可能都会有它一个专属的最牛逼的Agent。
有大通用的、有研究的、有旅游的、有设计的。
未来,垂直Agent的,一定会更快速的涌现。
现在又是凌晨6点了。
但是我还是还想感慨一句。
亲身参与这个时代里。
实在是,太酷了。
>/ 作者:卡兹克
原标题:《一手实测深夜发布的世界首个设计Agent - Lovart。》