当前AI绘图完全是瞎扯淡

寂静回声 · 发表于前天 16:59

你是否遇到过AI生成的物理示意图"看似正确，实则违背物理定律"的尴尬？力的方向画反、光路不遵守反射定律、电磁场分布混乱……这些由当前主流生成模型带来的"幻觉"，正是学术界亟待攻克的难题。最新论文《PhyDrawGen》提出了一种创新的神经符号化管道，从根源上解决了物理图表生成的准确性瓶颈，让AI绘图真正"尊重"科学规律。

当前，像GPT-5-image和Gemini 3 Pro这样的顶尖多模态大模型，在生成图像时可能产生视觉上合理的图表，但在科学层面却存在系统性"幻觉"。它们无法确保生成的力矢量、光学路径或场拓扑严格遵循物理定律。这使得生成的图表难以直接用于教育、工程设计或科学交流等严谨场景。

为此，研究者提出了PhyDrawGen。其核心思想是将语义理解与物理约束满足这两个关键任务解耦。整个系统分为三步：
首先，一个大型语言模型负责从用户提供的自然语言问题描述中，提取出结构化的"类型化场景图"，明确识别出物体、它们之间的物理关系以及涉及的物理概念。
这是确保准确性的关键。系统随后将场景图转换为"平面直线图"，这是一个能精确编码物理约束的几何模型。通过确定性算法，将力的平衡、光路的传播、电场的分布等物理法则，转化为精确的几何图元。
最后，一个经过微调的多模态模型（基于Qwen-VL）扮演"审核员"角色。它提出初始图表方案，并与确定性求解器生成的物理约束进行比对。如果发现任何违反物理定律的细节，系统将进行迭代修正，直至最终输出既视觉美观又物理准确的图表。

为了验证PhyDrawGen的有效性，研究者构建了一个覆盖力学、光学和电磁学三大领域的基准测试集，包含1449道物理问题。实验结果表明，PhyDrawGen在物理准确性上显著超越了包括GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro在内的顶尖商业模型。

这项研究的核心价值在于，它首次将符号推理的严谨性与神经网络的生成能力成功结合，为需要高精度、可验证的科学可视化应用开辟了新路径。

论文预印本链接：
https://arxiv.org/abs/2605.30512

		自动登录	找回密码
密码			立即注册