Cloudflare-avbrott ber CTO om ursäkt

Stora delar av internet blev mörkt på tisdagen efter att en kritisk Cloudflare-tjänst misslyckades, vilket tillfälligt slog några av världens största webbplatser offline – inklusive X, ChatGPT, Perplexity, Spotify och Canva – vilket gjorde att miljoner stirrade på meddelanden om ”interna serverfel”. Företaget har sedan dess löst problemet, men inte innan det har stört tjänsten för miljontals användare över hela världen.

Avbrottet gjorde att miljoner stirrade på meddelanden om ”internt serverfel”, vilket skapade förvirring, memes och frenetiska uppdateringar. Men Cloudflare bekräftade snart att det handlade om ett kritiskt internt fel, inte en cyberattack.

Cloudflares Chief Technology Officer (CTO), Dane Knecht, utfärdade en sällsynt, rak ursäkt kort efter att tjänsterna började återhämta sig och sa att företaget hade ”svikit våra kunder och det bredare internet.”

En rutinmässig förändring som utlöste en global härdsmälta

Avbrottet började runt 11:48 UTC den 18 november, när Cloudflares system började krascha i dess bot-reducerande lager. Detta är ett inline-säkerhetssystem som kontrollerar webbplatstrafik dagligen för misstänkt beteende.

Dessa fel spred sig snabbt över dess globala nätverk och påverkade allt från webbladdning till API-anrop och till och med Cloudflares egna Access- och WARP-säkerhetsverktyg.

Det som borde ha varit en enkel konfigurationsändring avslöjade istället en slumrande brist begravd djupt inne i Cloudflares bot-reduceringssystem.

”Öppenhet om vad som hände spelar roll, och vi planerar att dela ett sammanbrott med mer detaljer inom några timmar. Kort sagt, en latent bugg i en tjänst som ligger till grund för vår bot-reducerande förmåga började krascha efter en rutinmässig konfigurationsändring som vi gjorde. Det övergick i en bred försämring av vårt nätverk och andra tjänster. Det här var inte en attack”, betonade Knecht.

Fix utplacerade, men vissa funktioner förblev långsamma

Cloudflares ingenjörer implementerade en fix kl. 14:42 UTC och började återställa trafikflöden. Webbplatser kom långsamt tillbaka online, men företaget varnade för att analyser, loggar och instrumentpanelsverktyg skulle fortsätta att förbli tröga. Som en del av begränsningsarbetet stängde Cloudflare tillfälligt av WARP-åtkomst för användare i London.

”En korrigering har implementerats och vi tror att incidenten nu är löst. Vi fortsätter att övervaka efter fel för att säkerställa att alla tjänster är tillbaka till det normala”, sa företaget.

Vi fortsätter att se fel och latens förbättras men har fortfarande rapporter om intermittenta fel. Teamet fortsätter att övervaka situationen när den förbättras och letar efter sätt att påskynda full återhämtning.”

För nu säger Cloudflare att saker och ting är tillbaka till det normala. Avbrottet understryker dock hur sårbara även stora moln- och säkerhetsplattformar förblir sårbara för små interna misstag som kan orsaka omfattande störningar.

Nyaste artiklar

Relaterade artiklar