2025 年 11 月 18 日,Cloudflare 全球网络从 UTC 11:20 起出现严重服务故障,大量用户访问依赖 Cloudflare 的网站时遭遇 5xx 错误。事件持续约 6 小时,直到 UTC 17:06 才完全恢复。Cloudflare 强调此次事故并非网络攻击引起,而是内部系统错误导致核心代理(FL / FL2)无法正常处理流量。
问题源自一个 ClickHouse 数据库权限更新,该更新导致 Bot Management 生成的“特征配置文件”出现大量重复数据,使文件体积翻倍。配置文件被自动同步至全球节点后,触发了代理程序的预设内存限制,使其崩溃并返回 5xx 错误。更复杂的是,由于特征文件每 5 分钟重新生成一份,“好文件”和“坏文件”交替传播,使故障呈间歇性,加剧诊断难度。
核心 CDN、Bot Management、Workers KV、Turnstile、Access 等关键服务均受到影响。用户无法登录 Cloudflare Dashboard,大量网站流量中断;部分系统由于依赖核心代理,在故障期间出现连锁反应。Cloudflare 状态页也因巧合短暂离线,进一步造成混淆,让团队最初误以为遭遇大型 DDoS 攻击。
团队在明确问题原因后,于 UTC 14:30 推送已知良好的旧版本特征文件,并停止生成坏文件,服务逐步恢复。Cloudflare 表示这是 2019 年以来最严重的一次事故,并承诺将加强配置文件验证、改进错误隔离机制、增加全局“快速关闭”开关,以及避免调试系统在故障时过度占用 CPU。公司对事故影响深表歉意,并将推进网络韧性改进。
▎完整报告
https://blog.cloudflare.com/18-november-2025-outage/