Midjourney V6神图炸出!生图效果碾压DALL·E3,逼真画面登峰造极
猝不及防的, V6昨天下午忽然发布了!
虽然已经预告了是这两天,但谁也没想到的手速居然这么快,赶在圣诞节前让大家尝尝鲜。
在/的下拉菜单中选择V6,或者在后输入 --v 6,就可以用上V6 Beta版模型了!
激动的网友们蜂拥而入,出炉了一大波测评。比起V5,V6真的是疯狂加细节,画面质量史诗级增强。
根据MJ官方介绍,V6的主要变化,就是图像质量更好、语义理解更强、能嵌入英文单词、更容纳更多token了。
举个例子,下面这两张超人和蝙蝠侠的「剧照」,要不是背景里的「V6 is here」的提示,几乎已经分辨不出来到底是实拍还是出自AI。
以前被诟病最多的「一眼AI」,也在V6上达到了几乎「以AI乱真」的地步。
有网友表示: V5到V6的升级,堪称是一次里程碑,意义堪比 出现高清重绘。
除了图像模型的大提升之外,V6最大的变化,就在于提示词系统几乎重做了。
用户很可能需要重新学习怎么写提示词,需要尽量避免之前「语焉不详的描述」,例如「award 」这类形容词。
之所以会这样,是因为在以前,模型没办法完全反映提示词的要求,写太详细也没用。但是升级之后,图片会尽可能地遵循提示词中每一个词,所以用户也要珍惜提示词的空间,尽可能地详细描述自己想要的内容。
总之一句话就是,「只要你能说得清楚,V6就能给你画明白。」
网友用 V6来想象「如果史蒂夫·乔布斯今天还活着,他会是什么样子」,结果令人震惊
这位网友表示:如果说这是生成式AI创造的图像,没人会相信我。
它已经达到了电影级别的质量。这一领域的创意,比如电影、照片、海报和杂志,从此很可能由AI主导。
另一位网友表示,MJ V6太逼真了,你可以直接用它想象你最爱的演员在电影中的样子,比如Jared Leto在《最后的沙皇》中的扮相。
神图纷纷出现,图像质量史诗级提升
里程碑级的升级,究竟体现在了哪些地方?
一位网友用同样的来测试了V6和V5.2,可以看出,V6的提升体现在多处细节上。(上V6,下V5.2)
雨坑中日落的倒影,V6的光影效果明显比V5.2更自然,V5.2的加工痕迹要更明显。
of a in a rain
仔细观看可以发现,同样的女性面部主体,V6在皮肤细节、毛发细节、光影效果上,都远优于V5.2的效果。
1940年代复古科幻电影中身穿高领银色操作衣的女操作员,V6生图明显要比V5.2更加真实。
V5.2的图片主体人物显得过于呆板,不像真人。
1940s retro sci-fi film, side-angle shot of a young panel a form- with a high . She is by 3 art deco . warm and , soft
下面这两幅食物的图片都很诱人,但是V6的色彩和光影还是要更胜一筹。
a pot of stew with a spoon, top-down
在生成「二次元」风格的口袋妖怪时,V6生成的效果神似动漫,而V5.2会画得更像个摆拍的手办。
on the top of a snowy 35mm film still of a
超强语义理解,说啥就画啥
如果说在以前,视觉效果和美学表现都足够震撼的,为何风头时常不及DALL-E 3和Adobe ,那自然是因为对于的高要求,吓退了众多「语死早」的用户。
并且,V5.2糟糕的语义理解,也经常让生图结果是「虽然美丽但不实用」。
而如今的V6,让对于语气增强的理解,终于追上了竞家的脚步。比起V5.2,V6大大增强了语义理解的能力,对于的把握也更加精准。
写着「open late」霓虹灯标志的酒吧,V6就原样生出来了,V5.2的字样根本就不对。
而且从光影效果来看,V6也要更丰富更真实,就像给图片开了光追一样。
a bar with a neon sign that says "open late"
这张1960年代的街头风格照片,需要画出一位年轻女子穿着绿色丝绸连衣裙、戴着珍珠项链坐在帆船上。
显然,V6对于「珍珠项链」的理解要比V5.2好很多,而且除了人物主体之外,V6的周边细节也更合理精细。
1960s style photo of a young woman on a a green silk dress and a pearl . The sun is over the ocean, shot on Agfa Vista 200
「1980年代的悬疑电影,仰拍,身穿黑西装的法国管家在维多利亚式豪宅的走廊中手握蜡烛。」
从光影和构图来看,V6更符合要求,主体人物很好地融合进了背景里。而V5.2基本都没有做到。
1980s film, low-angle shot of an evil-eyed a black suit and a in the of a with musty decor. The warm glow a sense of
下面这幅要求画出抽象、超现实的景观,有融化的时钟、扭曲的形状和浮岛,空中有一只眼镜形状的巨大月亮。
其中,V6在空中画出了「A large, eye- moon the sky」,而V5.2就没有把这部分体现出来。
An , with , , and . The color is with a mix of blues, reds, and . A large, eye- moon the sky
这张1970年代的柯达电影剧照,需要画出身穿深V绿色丝绸连体裤的25岁红发女子。但V5.2并没有把我们要求的深V领口画出来。
1970s - film still of a 25-year-old woman with curly red hair and in front of car in Los . She's a green silk with a . hour
「五颜六色的珊瑚礁,各种各样的海洋生物,包括各种鱼、海龟和顽皮的海豚」。
这次,V5.2直接把海豚无视掉了,并自作主张地画了一个潜水员……
A coral reef with life. There are of fish, a sea , and a . the water, a on the sea floor.
「1980年代的间谍电影,年轻的黑发女人站在埃及装饰风格的豪宅中,有着黑色大理石柱子。」
显然,V6对于黑色大理石柱等背景的还原,要比V5.2准确得多。
1980s spy movie, shot from low-angle, 35mm film still of a young woman in an Art Deco with large made of black , a black dress, , ,
「电影剧照,一名侦探在犯罪现场采访一名女性证人,侦探在做笔录,目击者焦急地看着,指着一条线索。」
可以看到,V6的人物动作更加符合常理,而V5.2的图片中人物动作像是在发呆,没有按照提示词的描述进行做笔录的行为。
a at a crime scene. The is notes, while the looks on , a clue
就如同开头所说,「只要你能说得清楚,V6就能给你画明白。」
如果你是个想象力大师,可以用逻辑结构清晰、充满细节的语言描绘出心中所想,V6定不会让你失望——语言可以控制光影、控制材质、控制色彩、控制构图。
一句话,语言的魔力已经被放至最大:能写出神级的人,必得神图。
而相比之下,有加持的DALL-E 3,就不这么苛求用户的语言表达能力,而是可以自行想象。
难怪大家都说,的上限足够高,DALL-E 3的下限足够低。
文字生成,直追SOTA
在文字生成上,V6较前代也有了巨大的提升。
EMPTY、、Coca Cola,这些字在图像中想加就加。
虽然在准确度上略逊于DALL·E 3,但视觉美感方面的表现,依旧是遥遥领先。
不过下面这些图像,每一张都进行了3-10次的尝试,才得了到比较理想的结果。
A man alone in a dark empty area, at a neon sign that says "EMPTY"
A pouch photo with , and with the words " "
An anime style movie with the words "", with a girl at the night sky, and in the wind. --s 200
A Coca Cola ad, a can with
A clean, logo an ice cream cone, with palm trees as the and the words "ICE CREAM OASIS" --style raw
A clean and of a biker on a , with the words " ON " --s 250
A shot of a of on a clean with the words " ", by white
A movie with the words "" a angel in a dark --style raw --s 200
A , with the words "THE BIG ONE", a huge beef , with and in the
A pixar style of a happy , a "", in a by
这里,我们汇总了一些可以提高生成准确率的实用技巧:
1. 将单词大写并放在引号中,如「LIKE THIS」,可以提高生成的准确度
2. 使用--style raw参数,可以得到更准确的结果
3. 明确提出是电影海报(movie )和广告(),效果更好
4. 高值可以创造出更有趣的文字效果
三大AI生图巨头pk,谁能胜出?
所以,现在AI生图工具的三大巨头,无疑就是 V6、DALL·E 3和Adobe 了。
网友们当然迫不及待地让三巨头展开了一场大pk,对同一主题生图,一目了然地拼个高下。
因为有着非常丰富的光影效果,有极强的真实感,几乎没有了原先那种「一眼AI」的感觉。
同样画一个年轻女人,MJ打在脸上的光影效果让人震撼,人物的眼神在传达着某种情绪,整个画面都充满了电影感和故事感。
相比之下,另外两个女人美则美矣,眼神却略显空洞。
金发粉色衣服的美女,MJ画的美女骨相耐看,衣服很仙。
果然,画的美女,永远是最好看的。
蓝莓蛋糕,MJ也是赢得很彻底。相比之下,DALL·E 3的AI感还是太重了,一眼假。
「一对白发苍苍的老人」这道题,MJ的作品太动人了,一张照片仿佛包含了一生的故事。
机甲战士三家都画得不多,MJ的背景虚化显然是做得最好的。
雪中樱花的背景,MJ又一次完胜。
同样是金发美女,三张图构图不同,侧重点也不同。要论故事感,还是MJ完胜。
拿着相机的美女,后面是起火的建筑。MJ的人物情绪是对的,Adobe 画的美女笑得就太没心没肺了,DALL·E 3的人物和背景太剥离,光线太假。
虽然大家对于AI生图的评价标准各有不同的,但可以笃定地说,在艺术性和创意的触感上, V6这一轮是妥妥地赢了。
做对比图的博主说,现在是,并且可能永远是自己的最爱。就是因为它,自己才进入了这个AI艺术社区。
这位网友表示,在审美上,MJ把两位对手远远甩在了后面。
这位网友指出,Adobe 的优点就是,让图像看起来如此逼真,以至于你可以直接上传社交媒体。
相比之下,MJ的对比度更高,更倾向于添加光影。你更喜欢谁家的图?
#鲲鹏计划#
上一篇:没有了!