Salta al contenuto

Cloudflare spiega il disservizio di martedì

Riguarda la gestione del traffico dei bot.

In breve:

L'interruzione di Cloudflare, che ha disconnesso servizi come X e ChatGPT, è stata causata da un problema nel sistema di Bot Management. Molti hanno pensato a un errore dell’intelligenza artificiale o a un cyberattacco, ma in realtà tutto nasce da una modifica ai permessi di un database. Questa modifica ha fatto sì che una richiesta interna producesse dati duplicati, riempiendo la memoria e mandando in tilt il sistema, fino a bloccare il traffico dei siti che utilizzavano il servizio di Cloudflare che serve a riconoscere e filtrare il traffico dannoso dei bot.

Riassunto completo:

  • Cloudflare, un'azienda che gestisce circa il 20% del traffico web per mantenere i siti online e proteggerli da attacchi, ha subito la sua peggiore interruzione dal 2019.
  • L'incidente ha disconnesso per diverse ore servizi globali come X, ChatGPT e Downdetector.
  • La causa è stata identificata in un problema nel sistema di Bot Management, il quale gestisce i crawler automatizzati sui siti che usano la rete Cloudflare.
  • Nonostante i sospetti iniziali di un cyberattacco o di problemi con l'intelligenza artificiale generativa, la causa specifica è stata una modifica nel sistema di permessi di un database ClickHouse.
  • Una query su questo database ha generato un elevato numero di righe di dati duplicate in un file di configurazione del Bot Management.
  • Questo file, superando i limiti di memoria preimpostati, ha causato il blocco del sistema proxy centrale che elabora il traffico per i clienti che si affidano al modulo bot.
  • Cloudflare ha annunciato quattro piani per prevenire futuri incidenti simili, tra cui il rafforzamento dell'ingestione dei file di configurazione e l'implementazione di "kill switches" globali per le funzionalità.

Che succede al responsabile?

Niente... in questi casi la colpa è associata più ai processi che al singolo individuo. In genere le grandi aziende si prendono uno o due giorni di tempo per ricostruire un "post-mortem" da pubblicare. Ci sono anche casi gravissimi come l'outage di CrowdStrike di quest'anno che ha messo KO aeroporti, banche, ospedali e aziende — in quei casi l'azienda rischia grosse conseguenze legali ma l'individuo non viene comunque "punito". Le conseguenze sull'individuo avvengono solo in caso di negligenza grave o danno volontario.

Questo testo è un riassunto del seguente articolo (eng):

Cloudflare explains Tuesday’s outage that temporarily took down ChatGPT
It wasn’t DNS?

Alternativa in italiano: non pervenuta

Commenti

Più recenti