寂静回声 发表于 2024-7-25 11:02:08

关于微软蓝屏 请停止五十步笑百步



1、国外IT集权系统应用广泛,IT基础设施建设先进。CrowdStrike能够在短时间内将其发布的错误补丁推送到全球范围,这充分证明了国外IT集权系统在应用上的广泛性和IT基础设施建设的先进性。与之相对应的是目前国内的IT基础设施建设,还处于设备堆砌的状态,甚至部分企业集权系统都没有,仅通过手工的方式进行信息系统运维。

2、尽管许多人认为这只是一起发生在Windows系统上的孤立事件,但类似的问题其实已经在Linux系统上发生了几个月,只不过当时没有引起太多关注而已。
就在今年4月,CrowdStrike的一次更新导致一家民用技术实验室的所有Debian Linux服务器同时崩溃并无法启动。尽管是只有在特定的Linux配置下才会发生,但事实证明该更新与最新的Debian稳定版本不兼容。实验室的IT团队发现,删除CrowdStrike后机器可以启动,并报告了此事件。
一名参与该事件的团队成员对CrowdStrike的延迟响应表示不满。他们在一天后才承认了这个问题,并且花了数周时间才提供事故的原因分析。
无独有偶,Rocky Linux 9.4的用户在CrowdStrike升级后也报告了类似的问题,他们的服务器因内核错误而崩溃。Crowdstrike技术人员承认了这个问题,分析原因也大同小异,测试不足和对不同操作系统之间的兼容性问题关注不足,同样是测试领走了所有的锅。

3这次 CrowdStrike Falcon 的事情,当然可以在软件质量管理、运营体系建设之类的层面找一找问题,总结总结经验。但想杜绝类似问题再次发生也是不可能的,无非是下一次在五年后还是十年后。微软最近两年开始用 Rust 重写内核,也号召大家用 Rust 写驱动。我们实验室试了一下,Rust 固然不容易产生 C/C++ 的那些问题,但 Rust 有自己的问题,该蓝屏还是蓝屏。
美国赶走了俄罗斯的卡巴斯基,用美国“自主可控”的安全软件 CrowdStrike 加上美国“自主可控”的操作系统 Windows,也还是发生了这样的事情。“自主可控”有很多意义,比如不用担心别人“卡脖子”。但“自主可控”和软件质量、事故率之间没有必然关系。不能因为“自主可控”了,就对宇宙的熵增失去了敬畏之心。
软件故障和运营事故年年有,为什么这次会闹这么大呢?只能说因为 CrowdStrike 生意做的太好了,微软的生意做的太好了。因为生意做的太好,客户众多,以至于运行 Windows 的机器和运行 CrowdStrike 的机器重叠部分都有 850 万之多,而且分布于全球。机器多了,分布广了,自然影响就大。如果是用户比较少的厂商出问题,影响面自然也没这么大。但应该因此限制企业服务的客户数量吗?如果这么做,带来的负面影响可能比一两次事故要大得多。
再一个原因就是 CrowdStrike 是 SaaS 模式的。SaaS 在用的时候很敏捷,导致故障的时候自然也很敏捷。但这并不意味着 SaaS 不好,只是甘蔗没有两头甜。对此能做的可能也就是让 SaaS 稍微不那么敏捷一点,做个 Trade Off。比如给用户一个开关,每次更新规则的时候给用户发邮件,让用户自己按按钮。再比如设置不同的更新通道,追求稳定可靠就可以选慢通道,追求第一时间防御最新威胁可以选快通道。这并不能避免问题发生,但可以减轻影响。

短期内中国可能不会出现类似性质、规模的事情,这并不是因为我们的产品更可靠,而是因为中国安全行业还没有达到这样用户规模的产品,更不用说覆盖全球了。另外,中国的政企用户不喜欢 SaaS。所以,即便中国有用户量很大的产品,也是以私有化部署为主,不太容易出现这种一下子爆发的情况。

螺旋线 发表于 2024-7-25 12:32:33

有同学是做一些系统软件的,每次升级,需要人肉升级。装升级包的背包,上厕所都得背着。所以,这时候你可以任意吹牛逼,走,洗桑拿去,我请客。
页: [1]
查看完整版本: 关于微软蓝屏 请停止五十步笑百步