大模型AI在3D CAD模型编辑方面的能力远不及人类
近日,Autodesk研究院在预发表论文平台arxiv上公布了其神秘AI+BIM大模型NeuralCAD的最新研究成果。这篇论文介绍了一个名为neuralCAD-Edit的全新基准测试,旨在评估AI在3D CAD模型编辑方面的能力。这项研究由Autodesk Research团队完成,重点在于它不再局限于简单的文本指令,而是引入了专家级设计师的多模态交互(视频、语音、绘图、鼠标操作)。
当前的3D CAD生成技术正在快速发展,但模型编辑(Editing)才是设计流程中更关键的一环。之前的研究主要集中在文本(Text-only)或图像条件下的生成,忽略了专业CAD工程师在实际工作中丰富的交互方式(如一边指着模型一边说话、在屏幕上草绘等)。
本文期望建立一个基准,测试AI模型理解复杂的多模态指令并精确操作3D几何体的能力。本文作者邀请了10位具有8-13年经验的专家级CAD工程师参与。
设计师观看一个初始CAD模型,并提出编辑请求(分为简单、中等、困难三个等级,预计耗时分别为2、5、10分钟)。请求者自己执行一次编辑;另一位未参与请求的专家根据录制的请求视频执行第二次编辑(作为人类基准)。包含192个请求(共1.9小时视频)和384个编辑操作(共28.4小时)。
研究捕捉了设计师与软件交互的4种不同方式,以测试AI对不同信息密度的理解能力:
仅通过文本框输入指令,是最基础,无模型操作或语音。
视频+语音+鼠标交互,包含屏幕录制、语音指令、鼠标指向/点击。
交互式 + 临时绘图,设计师使用绘图工具辅助说明,线条几秒后消失。
交互式 + 静态绘图,绘图保留在屏幕上,直到手动删除。
人类测试基准: 执行模型编辑的专家设计师;AI使用模型:Google Gemini 3 Pro, OpenAI GPT 5.2, Anthropic Claude Sonnet 4.5。
通过测试发现,即使是表现最好的模型(GPT 5.2),在人类接受度测试中也比人类专家低了53%。人类在使用包含“绘图”的模态时,能传达更多信息,且编辑结果更复杂、更精确。但目前的AI模型(Claude, Gemini, GPT)并未从这些额外的模态中显著受益,说明其多模态理解能力仍有待提高。
目前AI的弱点:
空间推理差:例如在无人机模型上添加螺旋桨时,AI无法正确判断相对位置;
倾向于“重写”而非“编辑”: Claude有时会放弃修改原模型,而是尝试从头生成一个新模型;
缺乏持久性: 相比人类,AI在遇到困难时更容易放弃或迭代次数较少(不知道怎么改)。
这篇文章揭示了当前AI在专业工程设计领域的局限性。虽然大模型在代码生成和通用视觉理解上进步巨大,但在精确的3D空间操作和理解复杂的专业多模态指令方面,距离替代人类专家还有很长的路要走。
论文地址:https://arxiv.org/pdf/2604.16170v1
数据集:https://autodeskailab.github.io/neuralCAD-Edit/
页:
[1]