In breve:
L'interruzione di Cloudflare, che ha disconnesso servizi come X e ChatGPT, è stata causata da un problema nel sistema di Bot Management. Molti hanno pensato a un errore dell’intelligenza artificiale o a un cyberattacco, ma in realtà tutto nasce da una modifica ai permessi di un database. Questa modifica ha fatto sì che una richiesta interna producesse dati duplicati, riempiendo la memoria e mandando in tilt il sistema, fino a bloccare il traffico dei siti che utilizzavano il servizio di Cloudflare che serve a riconoscere e filtrare il traffico dannoso dei bot.
Riassunto completo:
- Cloudflare, un'azienda che gestisce circa il 20% del traffico web per mantenere i siti online e proteggerli da attacchi, ha subito la sua peggiore interruzione dal 2019.
- L'incidente ha disconnesso per diverse ore servizi globali come X, ChatGPT e Downdetector.
- La causa è stata identificata in un problema nel sistema di Bot Management, il quale gestisce i crawler automatizzati sui siti che usano la rete Cloudflare.
- Nonostante i sospetti iniziali di un cyberattacco o di problemi con l'intelligenza artificiale generativa, la causa specifica è stata una modifica nel sistema di permessi di un database ClickHouse.
- Una query su questo database ha generato un elevato numero di righe di dati duplicate in un file di configurazione del Bot Management.
- Questo file, superando i limiti di memoria preimpostati, ha causato il blocco del sistema proxy centrale che elabora il traffico per i clienti che si affidano al modulo bot.
- Cloudflare ha annunciato quattro piani per prevenire futuri incidenti simili, tra cui il rafforzamento dell'ingestione dei file di configurazione e l'implementazione di "kill switches" globali per le funzionalità.
Che succede al responsabile?
Niente... in questi casi la colpa è associata più ai processi che al singolo individuo. In genere le grandi aziende si prendono uno o due giorni di tempo per ricostruire un "post-mortem" da pubblicare. Ci sono anche casi gravissimi come l'outage di CrowdStrike di quest'anno che ha messo KO aeroporti, banche, ospedali e aziende — in quei casi l'azienda rischia grosse conseguenze legali ma l'individuo non viene comunque "punito". Le conseguenze sull'individuo avvengono solo in caso di negligenza grave o danno volontario.
Questo testo è un riassunto del seguente articolo (eng):

Alternativa in italiano: non pervenuta
