寂静回声 发表于 2024-2-19 15:45:49

Sora是不懂物理学的 所以不能用来做仿真分析

一篇专业的驳斥 Sora 懂物理引擎说法的推文。
其中提到像 Sora 这样的 Diffusion Transformer,底层是基于机器学习的随机梯度下降加上反向传播(SGD + backpropagation),这就意味着 Sora 是没有逻辑推理能力的,本质上也是将训练的数据压缩成模型的权重,在训练过程中,不断更新参数,从而让预测的时候误差降到最小。


就好比苍蝇找屎,总是朝着气味最浓的方向去寻找,就像梯度下降算法根据梯度的方向更新参数,以逐步接近损失函数的最小值。
基于这样的模式,是无法学会物理规律的,就好比将所有行星运动的数据拿来训练,也无法推导出广义相对论。
之前 Hongcheng 说过类似的观点,(https://twitter.com/hzhu_/status/1758692628361777574)
“模型不大可能通过被动看训练数据视频就能掌握物理定律。再聪明的智能体也不大可能通过看太阳东升西落的视频悟出地球围着太阳转。人类看了几千年苹果掉到地上,直到牛顿的时代才积累了足够的物理知识加上主动实验才发现了引力。”


以及 fin 的观点(https://twitter.com/fi56622380/status/1758311658441871517)
“就是人做梦的原理一模一样,不懂物理的古人做梦时候也是日有所思也有所想,或者是小猴子做梦的时候,就是把自己的所见拟合在了一起,不懂光线的反射也能有也许奇异但部分符合所见的世界
LLM本质上就是一个dreaming machine,用各种提示词制造符合逻辑或者不符合逻辑的梦”

具体建议参阅原推,完整内容转译如下:
***
让我们来看看OpenAI的Sora被誉为数据驱动物理引擎这一说法有多么荒谬:这就好比是收集了行星运动的数据,将其喂给一个预测行星将出现位置的模型,然后得出这个模型内部实现了广义相对论的结论。
爱因斯坦花费多年时间才推导出重力理论的方程。如果有人认为随机梯度下降加上反向传播(SGD + backpropagation)就像一个小爱因斯坦在模型训练过程中解决问题,那这个人对于机器学习的理解显然是有待商榷的。
不论你拥有什么学位,如果你认为SGD加上反向传播就能使模型像小爱因斯坦一样,仅凭输入输出对就能理解一切,那你对机器学习的工作方式了解不够。
爱因斯坦在理论推导中不得不对现实做出多项假设,比如光速恒定,时空是可以弯曲的,然后他推导出了微分方程,其解答揭示了黑洞、引力波等重大发现。
他运用因果推理将不同的概念连接起来。
然而SGD加上反向传播并不进行这样的推理。它只是简单地将信息压缩成模型的权重,并不进行逻辑推理,只是按照某种规则更新参数,以达到最小误差的配置。
机器学习(ML)的统计学习过程可能会陷入所谓的低误差“盆地”,这意味着它无法探索新的概念或理论,因为一旦陷入这些低误差区域或局部最小值,就难以重新开始探索。
因此,SGD加上反向传播往往会找到那些似乎有效但实际上非常脆弱的解决方案,这些解决方案在一定条件下看似工作正常,但很容易崩溃。
这也是为什么深度学习系统在实际应用中既不可靠又难以训练的原因,你必须不断地更新和重新训练它们,这在现实操作中是非常繁琐的。
梯度下降的过程可以比作一只苍蝇寻找气味源头的过程:苍蝇会沿着空气中化学物质浓度梯度向下移动,从而找到气味的来源。但如果它仅依赖这种方式,很容易就会迷路或陷入困境。
在机器学习中,模型的可调参数就是“苍蝇”,训练数据就是气味的来源,而通过目标函数测量的误差就是“气味”。模型的权重调整的目的是为了向着“气味”(这里指低误差,相当于浓郁的气味)移动。
认为一个机器学习模型仅通过训练行星运动的视频就能内部学习到广义相对论,这种想法更是荒谬。
这完全是对机器学习工作原理的一种误解。
推文链接:https://twitter.com/ChombaBupe/status/1759226186075390033
***
类似的还有这篇:
https://twitter.com/fchollet/status/1758896780576739485


直接转译一下:
自2016年起,视频生成模型和神经辐射场(Neural Radiance Fields)持续进步,现已成为研究热点。因此,这些系统是否蕴含了物理模型成为了广泛讨论的话题。我们来探讨一下...
这类系统能预测给定物理场景下一帧的视觉变化,因此,它们确实包含了一种物理模型。
关键的问题是,这种模型的准确性如何?它是否能够推广到模型未经训练的新奇情形,而不仅是简单的插值?
这不仅仅是理论上的问题。它们标志着两种截然不同的可能性。在一种可能中,生成的图像仅限于媒体生产,供人观赏。它们虽然看起来真实,但并不代表真实世界的样貌。而在另一种可能中,生成的图像可以作为现实的仿真,用于可靠地预测世界和未来,成为科学研究的工具。
比如,你制作了一个视频,视频中咖啡杯里有一艘海盗船。模型因为接受过海盗船、大海和咖啡杯的训练,所以能够将这些元素进行潜在空间的拼接,生成一个“匹配”的视频。
但视频中的波浪,真的能反映出在这种情况下水的实际行为吗?包括船体形状、船只对水的置换量,以及周围咖啡杯对波浪的影响?
还是说,这不过是一个幻想的拼接作品?
这个问题的答案并非一开始就很明显。
确实,这些模型是基于大量数据训练的复杂算法。我们知道,这样的模型仅能在局部范围内进行推广,因此无法处理完全新奇的情境。但是...
...许多现实世界的现象都可以通过复杂的算法模型来完整描述。物理学亦是如此。
物理学的多样性并不是无限的,物理学可以通过一组紧凑的公式来完全描述。比如,流体动力学就是由几个简单的方程组成!那么,为什么不可能呢?我们不能仅凭先验就排除这种可能性,关键是要看实际的证据(查看证据总是必要的)。
随着Sora项目的进展,我们快速积累了证据。现在我们已经在大规模上运作,而随着新模型的推出,证据积累的速度将更快。
到目前为止的证据明确表明——我们看到的确实是基于潜在空间的拼接和插值作品。这些内置的物理模型根本无法推广到新的情况。这不仅意味着它们不能作为流体动力学模拟器来设计新型飞机,或作为重力模拟器来设计新的弹珠轨道...
它们甚至未能捕捉到如物体持久性这样最基本的视觉现实原理,这是任何两岁儿童都能掌握的。
但我们能否改进它呢?当然可以。你需要做的是增加输入和目标之间空间采样的密度。你需要在更多的数据上进行训练,大量的数据。
这会在特定情况下提高现实感——即那些你新采样的情境,但这并不能解决根本的泛化问题。
关键的启示是,仿真世界并不等同于在插值潜在空间中嵌入观测数据。
值得注意的是,你仍可以使用复杂的算法模型来进行物理预测,尤其是对于那些难以仿真的系统(例如,天气)。但为了实现这一点,你需要将自己限制在特定的子空间内,其中:
1. 未来将与过去相似(稳定状态)。
2. 可以用曲线表示——即流形假设适用。
3. 能够收集到密集的训练数据样本。
在许多领域,这些条件是可以满足的。但对于“视觉世界”而言,这通常是不可行的。我们需要一种不同的模型。
你可以使用复杂算法模型来预测天气吗?是的,借助大量数据,我们已经在做这个了!
用来创建风洞仿真器吗?可以,前提是你能够固定尽可能多的参数,并且能够为变化的参数(如粘度)收集到密集的训练数据。
或者用来预测太阳活动?也许可行!
但你不能简单地将一个复杂算法模型应用于UE5屏幕截图和YouTube视频,然后期望它能泛化成一个实际世界的模型。这不是这些模型的工作方式。


页: [1]
查看完整版本: Sora是不懂物理学的 所以不能用来做仿真分析