In breve:
Cloudflare ha accusato la startup di intelligenza artificiale Perplexity di aggirare le direttive "no-crawl" dei siti web, nascondendo l'identità dei suoi crawler. Questa attività è stata osservata su decine di migliaia di domini. Perplexity ha negato le accuse. Cloudflare ha implementato nuove tecniche di blocco e rimosso i bot di Perplexity dalla sua lista verificata.
Riassunto completo:
- Cloudflare, fornitore di infrastrutture internet, ha accusato la startup di intelligenza artificiale Perplexity di aggirare le direttive "no-crawl" dei siti web.
- Perplexity avrebbe nascosto la sua identità di crawler cambiando lo "user agent" e le reti autonome, tentando di eludere le preferenze dei siti.
- Cloudflare ha rilevato questa attività su decine di migliaia di domini e milioni di richieste giornaliere, usando machine learning e segnali di rete.
- La scoperta è avvenuta dopo che i clienti Cloudflare si sono lamentati che Perplexity continuava lo scraping nonostante i blocchi via Robots.txt.
- Jesse Dwyer, portavoce di Perplexity, ha respinto le accuse, dichiarando che le immagini non mostrano accesso a contenuti e che il bot menzionato non appartiene a Perplexity.
- In risposta, Cloudflare ha rimosso i bot di Perplexity dalla sua lista verificata e ha implementato nuove tecniche per contrastare queste attività.
- Cloudflare ha adottato una posizione pubblica contro i crawler di intelligenza artificiale, offrendo strumenti per bloccarli o far pagare lo scraping ai proprietari di siti.
- Perplexity era stata precedentemente accusata di plagio e scraping non autorizzato da testate giornalistiche.
Perché è importante?
Perché di fatto il picco degli addestramenti dei grandi LLM è già passato ed è stato un periodo di anarchia totale. Adesso sono in corso numerosi processi — le big tech devono fare i conti con le decisioni che hanno preso in passato.
Questo testo è un riassunto del seguente articolo (eng):
Perplexity accused of scraping websites that explicitly blocked AI scraping | TechCrunch
Internet giant Cloudflare says it detected Perplexity crawling and scraping websites, even after customers had added technical blocks telling Perplexity not to scrape their pages.

Alternativa in italiano:
Cloudflare contro Perplexity: il dibattito sulle restrizioni allo scraping AI e il futuro dell’indicizzazione online - EduNews24
Accuse di tecniche di mascheramento e crawler terzi: la controversia sulla sicurezza degli algoritmi e la trasparenza nell’accesso ai contenuti web Leggi di più.
