机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 47|回复: 0

当前AI绘图完全是瞎扯淡

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
219675
发表于 前天 16:59 | 显示全部楼层 |阅读模式


你是否遇到过AI生成的物理示意图"看似正确,实则违背物理定律"的尴尬?力的方向画反、光路不遵守反射定律、电磁场分布混乱……这些由当前主流生成模型带来的"幻觉",正是学术界亟待攻克的难题。最新论文《PhyDrawGen》提出了一种创新的神经符号化管道,从根源上解决了物理图表生成的准确性瓶颈,让AI绘图真正"尊重"科学规律。

当前,像GPT-5-image和Gemini 3 Pro这样的顶尖多模态大模型,在生成图像时可能产生视觉上合理的图表,但在科学层面却存在系统性"幻觉"。它们无法确保生成的力矢量、光学路径或场拓扑严格遵循物理定律。这使得生成的图表难以直接用于教育、工程设计或科学交流等严谨场景。

为此,研究者提出了PhyDrawGen。其核心思想是将语义理解与物理约束满足这两个关键任务解耦。整个系统分为三步:
首先,一个大型语言模型负责从用户提供的自然语言问题描述中,提取出结构化的"类型化场景图",明确识别出物体、它们之间的物理关系以及涉及的物理概念。
这是确保准确性的关键。系统随后将场景图转换为"平面直线图",这是一个能精确编码物理约束的几何模型。通过确定性算法,将力的平衡、光路的传播、电场的分布等物理法则,转化为精确的几何图元。
最后,一个经过微调的多模态模型(基于Qwen-VL)扮演"审核员"角色。它提出初始图表方案,并与确定性求解器生成的物理约束进行比对。如果发现任何违反物理定律的细节,系统将进行迭代修正,直至最终输出既视觉美观又物理准确的图表。

为了验证PhyDrawGen的有效性,研究者构建了一个覆盖力学、光学和电磁学三大领域的基准测试集,包含1449道物理问题。实验结果表明,PhyDrawGen在物理准确性上显著超越了包括GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro在内的顶尖商业模型。

这项研究的核心价值在于,它首次将符号推理的严谨性与神经网络的生成能力成功结合,为需要高精度、可验证的科学可视化应用开辟了新路径。


论文预印本链接:
https://arxiv.org/abs/2605.30512
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-6-21 10:33 , Processed in 0.076592 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表