大模型AI在3D CAD模型编辑方面的能力远不及人类

寂静回声 发表于前天 10:16

近日，Autodesk研究院在预发表论文平台arxiv上公布了其神秘AI+BIM大模型NeuralCAD的最新研究成果。

这篇论文介绍了一个名为neuralCAD-Edit的全新基准测试，旨在评估AI在3D CAD模型编辑方面的能力。这项研究由Autodesk Research团队完成，重点在于它不再局限于简单的文本指令，而是引入了专家级设计师的多模态交互（视频、语音、绘图、鼠标操作）。
当前的3D CAD生成技术正在快速发展，但模型编辑（Editing）才是设计流程中更关键的一环。之前的研究主要集中在文本（Text-only）或图像条件下的生成，忽略了专业CAD工程师在实际工作中丰富的交互方式（如一边指着模型一边说话、在屏幕上草绘等）。

本文期望建立一个基准，测试AI模型理解复杂的多模态指令并精确操作3D几何体的能力。本文作者邀请了10位具有8-13年经验的专家级CAD工程师参与。
设计师观看一个初始CAD模型，并提出编辑请求（分为简单、中等、困难三个等级，预计耗时分别为2、5、10分钟）。请求者自己执行一次编辑；另一位未参与请求的专家根据录制的请求视频执行第二次编辑（作为人类基准）。包含192个请求（共1.9小时视频）和384个编辑操作（共28.4小时）。

研究捕捉了设计师与软件交互的4种不同方式，以测试AI对不同信息密度的理解能力：

仅通过文本框输入指令，是最基础，无模型操作或语音。

视频+语音+鼠标交互，包含屏幕录制、语音指令、鼠标指向/点击。

交互式 + 临时绘图，设计师使用绘图工具辅助说明，线条几秒后消失。

交互式 + 静态绘图，绘图保留在屏幕上，直到手动删除。

人类测试基准：执行模型编辑的专家设计师；AI使用模型：Google Gemini 3 Pro, OpenAI GPT 5.2, Anthropic Claude Sonnet 4.5。
通过测试发现，即使是表现最好的模型（GPT 5.2），在人类接受度测试中也比人类专家低了53%。人类在使用包含“绘图”的模态时，能传达更多信息，且编辑结果更复杂、更精确。但目前的AI模型（Claude, Gemini, GPT）并未从这些额外的模态中显著受益，说明其多模态理解能力仍有待提高。

目前AI的弱点：
空间推理差：例如在无人机模型上添加螺旋桨时，AI无法正确判断相对位置；
倾向于“重写”而非“编辑”： Claude有时会放弃修改原模型，而是尝试从头生成一个新模型；
缺乏持久性：相比人类，AI在遇到困难时更容易放弃或迭代次数较少（不知道怎么改）。

这篇文章揭示了当前AI在专业工程设计领域的局限性。虽然大模型在代码生成和通用视觉理解上进步巨大，但在精确的3D空间操作和理解复杂的专业多模态指令方面，距离替代人类专家还有很长的路要走。

论文地址：https://arxiv.org/pdf/2604.16170v1
数据集：https://autodeskailab.github.io/neuralCAD-Edit/

页: [1]

机械荟萃山庄's Archiver

大模型AI在3D CAD模型编辑方面的能力远不及人类