cloudflare挂了,突发故障原因
Cloudflare在2025年11月18日发生了一次严重的全球性服务中断,导致大量知名网站和服务无法访问。此次故障并非由网络攻击引起,而是一次由内部配置更改失误引发的连锁反应。
下面是这次故障的核心信息概览:
发生时间2025年11月18日 11:20 UTC(北京时间19:20
恢复时间:核心流量于14:30 UTC恢复,所有系统在17:06 UTC完全正常
根本原因:内部数据库权限更改,导致Bot管理系统生成并下发了异常增大的配置文件
直接原因:核心代理软件无法处理超大的配置文件,进而崩溃,无法路由流量
受影响服务:核心CDN、安全服务、Turnstile、Workers KV、Cloudflare控制面板登录等

用户表现:访问网站时遇到HTTP 5xx错误页面
故障的详细过程
故障起源:为了改进权限管理,Cloudflare工程师对一款名为ClickHouse的数据库系统进行了配置更改。这一更改导致数据库在执行一个用于Bot管理系统的查询时,输出了大量重复数据条目。
连锁反应:这些重复数据使得Bot管理系统生成的一个关键"特征文件"体积增大了一倍。这个异常文件被迅速分发到Cloudflare全球网络中的每一台服务器。
系统崩溃:负责处理网络流量的核心代理软件在读取这个文件时,由于文件大小超过了其内部设定的处理上限,导致软件崩溃并无法重启,最终使得网络流量无法被正常路由。
诊断与修复:故障初期,由于影响面极大且症状波动,工程师曾短暂怀疑是否遭遇了超大规模DDoS攻击,但很快排除了这种可能。团队最终定位到根本原因,并通过停止分发错误文件、用早期正常版本替换,并强制重启核心代理服务的方式解决了问题。
故障的深远影响
这次事件清晰地暴露了现代互联网基础设施的集中化风险。由于Cloudflare承载了全球约20%的网站流量,其单一故障点引发了广泛的"多米诺骨牌"效应,众多依赖其服务的知名平台如X (Twitter), ChatGPT, Claude, Spotify, Shopify等都受到了影响。


发表评论