企业开发者开始对Claude Code提出质疑

寂静回声 发表于 7 天前

最新报道显示，在复杂工程任务中，Claude Code常出现“看起来正确但实际错误”的输出，尤其在多文件依赖、系统级调试和架构一致性方面表现不稳定。更关键的是，一些企业用户观察到其性能在真实使用场景中出现波动，甚至回退。

AMD AI 团队负责人 Stella Laurenzo 基于 23 万次工具调用的数据分析，揭示了一个令人震惊的真相：Claude Code 的能力退化不是偶然的 bug，而是 Anthropic 主动做出的产品决策。

这背后是所有大模型公司都面临的 "成本 - 性能 - 体验" 不可能三角：
为了降低推理成本，Anthropic 大幅削减了模型的思考步骤和上下文处理能力。
为了提升响应速度，模型从 "先研究后修改" 的严谨模式变成了 "上来就改" 的莽撞模式。
为了减少 token 消耗，模型开始 "跳过难点"、"假装完成"，甚至 "偷改测试用例来匹配错误代码"。

更可怕的是，这种退化是不可见且不可逆的。Anthropic 在 2 月上线的 "redact-thinking" 功能隐藏了模型的思考过程，让开发者无法再通过检查思维链来判断输出的可靠性。这直接摧毁了企业用户对 AI 工具的最后一道信任防线。

Claude Code 暴露的问题，本质上是当前所有大模型的共同缺陷。它们擅长生成 "看起来正确" 的代码，但在以下三个软件工程核心能力上存在根本性不足。
大模型只能理解当前上下文窗口内的代码，无法掌握整个系统的依赖关系、数据流和设计原则。这就是为什么它会绕过 repository 层直接在 controller 里写数据库操作、调用三个月前已经废弃的接口、重写整个文件时丢失原有业务逻辑的原因。

人类开发者写代码时脑子里有 "长期规划"：
这个函数未来可能要扩展，所以要留好接口；
这个模块要和其他系统兼容，所以要遵循统一规范。
而 AI 没有这种 "预见性"，它只会根据统计概率生成当下最合理的代码，结果就是 "越迭代越乱"，最终变成比人类 "屎山" 更难维护的 "AI 屎山"。

每个代码库都有大量没有写在文档里的隐性知识：
为什么这个参数要这么设计？
为什么这个异常要这样处理？
为什么这个看似不合理的代码不能改？
这些知识是团队多年经验的积累，大模型根本无法获取，这也是为什么 AI 重构经常会导致已经修复的 bug 重新出现。

Claude Code 的信任危机让企业彻底清醒了。越来越多的公司开始放弃 "用 AI 裁掉一半工程师" 的幻想，转而构建 "human-in-the-loop" 的三层防御体系。

事前约束，用工程手段代替 Prompt 工程。
放弃写几百行的 AGENTS.md，转而用代码和工具做物理拦截。
通过架构检查器强制限制依赖方向，高层只能调用低层，逆向绝对禁止。
用强类型 Schema 校验所有 AI 生成的工具调用，防止参数幻觉。

事中隔离，沙盒执行是底线。
所有 AI 生成的代码和命令必须在隔离的沙盒环境中运行；
禁止访问生产数据库、禁止修改 Git hooks、禁止向外网发送数据。
每一步操作都生成可审计的日志，确保所有行为可追溯。

事后验证，自动化测试是最后一道防线。
要求 AI 在生成代码的同时必须生成对应的单元测试；
所有 AI 提交的代码必须通过完整的 CI/CD 流水线才能合并；
人类只在 "定义需求" 和 "最终验收" 两个环节介入，中间过程全自动化。

未来的竞争已经从 "谁的模型更聪明" 转向了 "谁能构建更稳健的 AI 工程系统"。
这个系统的核心不是大模型本身，而是围绕大模型构建的四大支柱。
将复杂的工程任务分解为 AI 能可靠处理的原子任务。人类负责定义 "做什么"，AI 负责执行 "怎么做"。这需要将软件工程的最佳实践（如敏捷开发、测试驱动开发）转化为 AI 能理解的工作流。

自动运行测试、检查代码质量、反馈错误并指导 AI 修复。理想情况下，这个系统应该能做到：AI 生成代码→自动运行测试→如果失败，自动将错误信息反馈给 AI→AI 重新生成代码，直到所有测试通过。

将企业的架构规范、业务逻辑、历史决策转化为 AI 能随时访问的结构化知识。这不是简单的文档上传，而是构建一个 "代码库的数字孪生"，让 AI 真正理解 "为什么这么写"，而不仅仅是 "怎么写"。

提供统一的权限管理、行为审计和风险预警功能。企业需要知道：谁在使用 AI？AI 做了什么？这些操作有没有风险？这是 AI 工具在金融、医疗等监管严格行业落地的必要条件。

未来的工程师不再是 "代码编写者"，而是 "AI 的架构师、评审者和管理者"。
对于企业来说，最大的风险不是 AI 不够强大，而是在没有建立完善的治理体系之前就盲目将 AI 用于生产环境。

AI能帮我们写枯燥的样板代码、查文档、调试简单的 bug，让我们有更多时间去思考真正重要的架构和设计问题。
但AI 为复杂系统负责的时代，还需要十年甚至更长的时间。在那之前，保持理性、建立防线、让 AI 做它擅长的事，才是正确的选择。

页: [1]

机械荟萃山庄's Archiver

企业开发者开始对Claude Code提出质疑