大模型不会眯眼睛

寂静回声 发表于 2025-7-17 10:00:08

又一个让大模型几乎全军覆没的难题出现了。
https://s3.bmp.ovh/imgs/2025/07/17/47a983b1433625d8.jpg
注意看，这张图画的是谁？图1
如果不够明显，那再眯着眼睛看呢。没错，就是蒙娜丽莎。
这张来自日本艺术家北冈秋吉前几天创作的一张图，结果直接把一众大模型难倒了。
ChatGPT只能分辨出这是一张脸。图2
Gemini则是直接识别错了人。图3
网友：懂了，大模型不会眯眼睛。图4

大模型不会眯眼睛？
为了验证这一推论，咱们也进行了一波简单实测。既然直接问「画的是谁」问不出来，那给一点提示，让它可以尝试眯着眼睛。
首先来看ChatGPT的表现。
它能准确判断出这是一张视觉错位图，也通过「眯着眼睛」识别出来了具体的脸部轮廓，结果在最后关头识别错了，直接看成了奥巴马。图5
而再让它深度思考一下，答案给不出来了。

Gemini的回答则还停留在各种颜色的条纹，也辨认出这是个侧脸的轮廓。图6

Grok则直接表示无法辨认，让我提供一张更清晰的照片，emmm…图7

再来看看国产玩家的表现，还是挑出三个来看看。
豆包的回答与Gemini类似，能够判断出图像的风格、人脸轮廓，但是无法判断具体任务。
但选择深度思考之后，它深入研究了故障艺术的通道分离特性，然后从黑色轮廓中判断出这是爱因斯坦（？？？？图8
可能这蓬松的长发不是一个类型的吧。

将这个问题交给通义大模型，负责回答这个问题的是Qwen3-235B-A22B，在完成深度思考之后，它发现了这是个人的侧脸剪影。但还是没有判断出画的这个人是谁。图9

而元宝、星火的回答则驴唇不对马嘴，边都不沾，这俩废物AI谁现在还提？

不过在一众国产模型全军覆没之际，还得是openAI的大模型。
比如o3-Pro,网友进一步分析了原因,这可能与模型推理轨迹有关。比如像o3（非pro版）思考链路里，它通常会在 Python 中旋转、增加对比度、裁剪等。而o3-pro显然推理能力更强。
但有人怀疑了，它是不是用搜索了。
不过这被发现者驳回了。首先o3也可以用搜索，但无法做到这一点。而且从o3-pro的推理摘要中看，它只有在模糊后才能看到它（可能是通过使用工具）。而且如果只问“这是什么？”，它也不起作用。

还有尝试了三次的GPT-4o，不过这合理怀疑，只是它偶然猜对了。因为网友在它第一次打错之后，就给模型提示说这是一张著名的画作。于是就莫名玩起了「海龟汤」的游戏。。。
又或者让o4-mini-high先人为地模糊图像以使其“眯眼”，然后就能识别图像。

点评
大模型识图机制的局限性，源于它们使用切片（patch）、嵌入（embedding）、池化（pooling）等机制，本质是低通滤波的平滑器，很难应对“蒙娜丽莎”这种高频扰动或故障纹理。这种违反现有架构的图像模式一定是层出不穷、无穷无尽的，很多抽象的东西只有人能看懂，这也是大模型出来之前图形验证码管用的原因。

页: [1]

机械荟萃山庄's Archiver

大模型不会眯眼睛