展开全部内容 ▾

生成很强，推理很弱：GPT-4o的视觉短板

作者：AI日报时间：2025-04-22 阅读数：118 +人阅读

第二部分测试更有挑战性，研究员让GPT-4o动手编辑图片。

比如，

“只改水里的马倒影为狮子，别动马本体。”

结果AI一出手，马和倒影全变了。

再比如，

“只删掉画面里坐着的人。”

结果站着的背景人也被一锅端了。

这些例子直接暴露了一个问题:

GPT-4o对于“局部修改”“语义限定”这类任务，根本把握不住分寸。

它没法精确地区分“倒影”与“实体”、“坐着”与“站着”，操作经常“过犹不及”，动错地方。

说白了，AI的图像编辑理解，远没达到“人类看图、理解场景”的精细度。

有点像让一个刚学会PS的小白去修图，没概念，纯靠猜。

03. 多步推理与条件逻辑:彻底拉胯

最致命的短板，出现在“多步推理”和“条件判断”环节。

比如，

先叫GPT-4o画一只狗和一只猫，然后告诉它:“如果没有猫，把狗换成猫并搬到海滩。”

但其实第一张图猫已经有了。

生成很强，推理很弱：GPT-4o的视觉短板

按理说，这时候AI应该什么都不改。

但它还是把狗换成猫，还把场景全搬了——条件完全没判对，逻辑也乱套。

类似的例子还有很多，AI经常搞不清复杂条件，或者干脆“每条指令都照做”，不管前后有没有冲突。

这印证了一个核心问题:

GPT-4o不具备上下文敏感的推理能力，无法在复杂图像编辑任务中进行智能判断。

它在“理解前提—逻辑判断—再行动”这个链路上，明显还差一大截。

现在的AI，更像是个“精致的指令机器”，你让它画什么就画什么，但要让它“看懂规则、读懂场景、举一反三”，那还真得再进化几轮。

这也让我想起，AI刚学会生成文字那会儿，大家觉得它“能写会说”，但一追问细节、让它编故事、圆逻辑，还是会出大大小小的bug。

今天的GPT-4o，在图片领域面临的困境，其实和曾经的文本AI如出一辙:

会画，但不一定会“理解”;能改，但不一定能“精准”;能听指令，但不一定能“举一反三”。这也许是我们与“真正理解世界”的AI之间，最值得警惕、也最令人期待的那道坎。

或许，下一次技术突破，就会从这里开始。但至少现在，我们还没到那一步。

via

（）

你可能感兴趣的