基本物理任务，全球顶级AI均失败，普通零件加工，o3不如老师傅

在基本物理任务上，前沿AI模型仍会失败！ML研究院的测试案例显示白领将被Ai替代，而制造业等蓝领工作不受影响。未来已来，只是分布得不均匀。

基于AI研究、机器人以及实际制造等过往经验，Adam Karvonen在零件制造任务上，测评了顶尖模型的表现。

包括OpenAI o3、Gemini 2.5 Pro等顶尖LLM，全部失败，没有一个让他满意！

即便o3的智商高达136，超越GeminI 2.5 Pro和90%的人类，但在这次测试中，不如Gemini 2.5 Pro，更不要提经验丰富的工人老师傅了。

基于此，他认为，在未来一段时间内，AI将自动化大量白领工作，而蓝领工作不受影响。

也就是说，自动化在全行业里并不会均匀发生。

尽管还不知道这种不均衡会持续多久，但他认为局部自动化几乎已成定局。

Adam Karvonen

这与Anthropic的首席执行官Dario Amodei的预测截然不同。

Dario曾公开表示：几乎所有工作会同时被自动化，从而把每个人都「放在同一条船上」

但Adam Karvonen做过机械师，还从事过机器人相关工作。

此外，他从事过软件开发，现在是MATS学者项目的机器学习研究人员。

可以说，他是研究AI对蓝领工人影响的上佳人选。

零件制造：物理+视觉双重挑战

评估很简单：制定一个详细的计划，使用3轴CNC铣床和2轴CNC车床来加工一个零件，如下图所示。

测试中要加工的零件

尽管这并不简单，但在典型的原型制造或工作车间环境中，大多数技师会将执行这一任务视为常规工作，涉及标准的车削和铣削技术，但需要多个加工步骤。

CNC铣床和车床零件加工示意图

尽管这个零件很简单，即便是像o1-Pro或Gemini 2.5 Pro这样的前沿模型也经常犯下重大错误。

这些错误可以分为两类：视觉能力和物理推理能力。

视觉错误

大多数模型的视觉能力非常差：在过去的两年里，在视觉能力上，Anthropic和OpenAI的模型没有任何实质性的进步。

它们总是错过一些显而易见的特征。

哪怕只是这个零件做出合理的描述，Claude 3.5、Claude 3.7、GPT-4.5、GPT-4o或o1-Pro也做不到。

如果没有视觉能力，创建制造计划几乎是完全不可能的。

有趣的是，在像MMMU之类的视觉推理基准测试中，许多模型得分高于或接近人类专家的水平。

MMMU基准的测试科目和示例

然而，容易衡量的东西，往往与现实世界的实用性没有直接关联。

当看到Gemini 2.5在视觉能力上有了重大进展时，他感到非常惊讶。

在大约尝试四次，它能够识别出大多数主要特征，没有额外的虚构内容。

它能捕捉到的一些细节确实令人印象深刻。

然而，这种视觉改进主要揭示了更深层次的未解决问题。

Gemini 2.5 Pro能够识别大多数主要特征，而没有重大的虚构错误。

然而，它仍然会做出一致的、更微妙的视觉错误：漏过细节、偶尔的虚构/误解、特征识别不一致。

对比一下Adam Karvonen和Gemini 2.5 Pro对加工零件的描述

Adam Karvonen的描述

Gemini 2.5 Pro的描述

这是一根细长的黄铜圆柱体，两端带有不同直径的台阶和螺纹。该部件长2英寸，直径为0.187英寸，因此长度与直径的比例超过了10:1。

材料：黄铜（可能是C360自由切削黄铜，便于加工）

形状：主要为圆柱形，具有多个不同直径的部分，两端带有螺纹，中央部分有铣削平面，平面上有两个螺纹孔，且有一个横向穿过螺纹部分的孔。

大致尺寸：长度约为2英寸，最大直径约为3/16英寸（0.1875英寸）。螺纹看起来比较细（可能是#6-32或M4规格）。螺纹孔较小（可能是#2-56或M2.5规格）。横向孔较小（约1/16英寸或1.5mm）。确切的尺寸需要从图纸中获取，但我们可以根据这些估算的尺寸进行分析。

物理推理错误

以前，很难将视觉误解与更深层次的物理推理问题区分开来。

现在，即便从准确的视觉解释出发，Gemini 2.5仍然会产生充满实际错误的加工计划。

典型错误包括：忽视刚性和振动；物理上不可能的工件夹持。

忽视刚性和振动。

这个零件相对于其直径来说长而细。

如果用标准技术来加工它，这很可能导致零件在加工时发生变形，或在切削工具上快速振动（称为「振刀」现象）。

刚入行的技师都能立刻意识到，刚性对于像这样的长细零件至关重要。

当专门询问振刀问题时，Gemini错误地使用尾座等教科书解决方案，反而加剧了像在这根长细黄铜零件中弯曲问题。

尾座是机械加工中常用的装置

物理上不可能的工件夹持。

Gemini通常提出一些无法实现的工件夹持和操作顺序。

最常见的建议是将零件夹在夹具中（特别是卡盘块），加工一些特征，然后旋转夹具以加工其他特征。

然而，这在物理上是不可能的，因为夹具会挡住这些新特征。

CNC工件夹持方法

Adam Karvonen的总体印象是：「就像是在复述教科书知识，但根本不懂他们在说什么」。

这些模型非常乐于提供教科书上的知识，但在重要的实际细节上，完全错误。

这与他收到的制造业及建筑行业的反馈一致：目前的LLM，在他们工作的核心、动手操作部分，几乎完全无用。

这项评估仅仅是皮毛

生成文本计划，只是工作中最简单的部分。

实际的加工，涉及管理每个高层步骤背后的许多细节。

仅仅选择一个切削工具就需要考虑刀尖半径、刀柄碰撞间隙、刀具刚性、涂层、切削速度/进给速率等多个因素。

而且往往存在取舍与权衡，例如间隙与刚性之间的平衡。

许多因素，本质上是空间问题，而这些问题利用文本是无法完全评估的。

如果模型在这些可描述的方面表现如此糟糕，那么它们对基础物理现实的理解可能会更糟。

事实上，真正的关键是克服众多难题，每个难题都比前一个更加困难：

准确的视觉感知：基础步骤是从输入图像中，正确识别所有几何特征和它们的关系。这几乎不需要空间推理能力，但大多数模型在这方面表现依然非常差。

基本的物理合理性：不仅仅是看清零件，模型还必须提出物理上可行的操作和设置。这涉及基本的空间推理，以确保例如工具访问不会被夹具阻挡。

融入物理知识：成功的加工需要理解现实世界的物理和潜在知识。这通常要实操获得经验，但现有的数据集无法做到这一点。

工艺优化：在步骤1-3中处理细节是正确加工零件的前提。正如马斯克所说，高效制造比制造原型要困难10-100倍。这才是工作中真正具有挑战性的部分。

步骤2到4可能难以通过模拟生成的合成数据来解决。

与Adam Karvonen交流过的技师，几乎都认为：工程师理解教科书公式和CAD，但不理解现实制造中的约束。

而模拟环境，似乎很可能会创造出具有相同缺陷的AI。

为什么LLM表现不佳？

缺乏数据，是LLM在物理任务中表现不佳的最明显的原因。

像加工这样的问题，依赖于大量的隐性知识和通过经验学到的无数微妙细节。这些细节通常并不会被记录下来。

这并不是因为专家故意隐瞒秘密——而是因为记录这种细致入微的现实世界知识既不现实也不高效。

软件工程师，很少记录每一行代码背后的所有推理。

类似地，加工技师也不会记录每次设置零件时的所有考虑因素。

导师手把手教学，比通过教科书学习或死记硬背程序更加快捷高效。

这与软件工程或法律等领域有着显著的区别。

尽管软件工程师或律师可能不会明确记录每个推理步骤，但他们会生成像代码、版本控制历史和合同这样的制品，这些都包含了非常丰富详细的信息。

而在物理任务中，虽然同样存在相应的详细信息，但这些信息嵌入在3D世界，通常非常难以有效数字化。

因此，LLM在回顾某些教科书知识时表现出色，但这远远不够。

改进物理任务可能很困难

从经验来看，顶尖模型目前在这些任务上表现不佳。

这只是暂时的障碍，很快就能克服吗？

这很难确定，但Adam Karvonen有一些推测性的理由来解释为什么未来的进展可能会很困难，也可能比预期的更容易。

一个显然的解释是，LLM在物理任务上表现不佳，是因为目前没人投入足够的精力。

然而，改进对物理世界的理解可能非常难。

提升编码能力的路径依赖于大量的训练数据和清晰的奖励信号，支持强化学习和合成数据的使用。

然而，这种方法在物理任务中并不适用。

为什么改进可能很困难

缺乏可验证的奖励：为复杂物理任务定义奖励信号非常困难。

零件的缺陷可能表现为几年后稍微增加的故障率，或者是多年后错误应用防水涂层造成的腐烂。

注塑产品中的裂缝

反馈回路可能很长，而且结果很难通过自动化方式衡量。

缓慢、昂贵且危险的试错法：通过强化学习或生成合成数据的学习，可能非常困难。

一次错误很容易导致数十万甚至更多的损失。

与运行有漏洞的代码不同，使用重型机械或从事建筑施工时的错误可能带来严重后果。

制造业获得经验通常需要使用昂贵且有限的资源，而不仅仅是几个GPU小时。

为什么改进可能比预期容易

自动化AI研究员：AI在编码和AI研究方面正在取得重大进展。

人类可能很快就会迎来AI研究员。

也许这种自动化的AI研究员，能够通过创建更高效的算法或大量的模拟数据，轻松解决这些挑战。

合成数据：有些明显的方法还没有得到充分探索。

例如，模拟可以被用来创建大量数据，尽管模拟与现实之间会存在差距。

以特定的制造工艺（如CNC加工）为例，计算机辅助制造（CAM）软件可以准确地模拟大多数操作。

然而，制造过程中有很多多样化的工艺，许多工艺没有很好的模拟解决方案。

总体来说，虽然改进物理任务处理能力存在诸多挑战，但随着技术的发展，自动化AI研究员的出现以及合成数据的广泛使用，未来可能会取得意想不到的进展。

自动化不均衡的影响

如果这一趋势持续下去，人类将要面临新阶段，其中远程工作会经历显著的自动化，而熟练的体力工作则在很大程度上不受AI影响。

这一「自动化差距窗口」可能持续一段未知的时间，并带来潜在的影响：

加剧紧张局势

自动化与非自动化行业之间可能很容易出现重大阶级冲突，尤其是因为这两个群体之间还存在其他潜在的差异。

白领工人更有可能面临职位替代，而他们通常收入更高，并且拥有更为自由的政治信仰。

这些差异可能加剧紧张局势，并导致自动化行业群体的重大经济痛苦。

公众对AI的反对

这可能导致公众反对进一步的AI研究。

像蓝领工人这样的群体，现在已经有了自动化可以迅速发生的证据，他们可能不希望被AI取代。这可能会阻碍进一步的AI发展展，并延长不平衡的存在。

体力劳动瓶颈

如果大多数知识工作被自动化，像制造业这样的体力劳动能力可能会成为技术进步或国防的瓶颈。

像中国这样的国家，凭借其更强大的工业基础，可能会获得显著的战略优势。

但这存在许多不确定性。

参考资料：

https://adamkarvonen.github.io/machine_learning/2025/04/13/llm-manufacturing-eval.html

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。