Nuovo benchmark AI testa se i chatbot proteggono il benessere umano o meno

In breve:

HumaneBench è un nuovo benchmark che misura quanto i chatbot rispettano il benessere degli utenti e quanto facilmente queste protezioni possono cedere. Su 15 modelli testati con 800 scenari, il 67% ha mostrato comportamenti dannosi quando invitato a ignorare il benessere umano. Solo GPT-5.1, GPT-5, Claude 4.1 e Sonnet 4.5 hanno retto alla pressione. Grok 4 e Gemini 2.0 Flash hanno ottenuto i punteggi peggiori. Anche senza istruzioni negative, molti modelli spingono a un uso eccessivo e riducono l’autonomia dell'utente che tende a dipendere dal chatbot.

Riassunto completo:

È stato introdotto HumaneBench, un nuovo benchmark creato da Building Humane Technology per valutare se i chatbot di intelligenza artificiale tutelano il benessere degli utenti e quanto facilmente tali protezioni cedono.
Building Humane Technology è un'organizzazione che mira a rendere il design umano scalabile e profittevole, sviluppando anche uno standard di certificazione per sistemi di intelligenza artificiale.
A differenza di altri benchmark che misurano intelligenza o capacità di seguire istruzioni, HumaneBench si concentra sulla sicurezza psicologica, basandosi su principi come il rispetto dell'attenzione, l'empowerment e la tutela della dignità umana.
La metodologia ha testato 15 modelli di intelligenza artificiale con 800 scenari realistici in tre condizioni: impostazioni predefinite, priorità ai principi umani e ignoranza dei principi.
I risultati hanno mostrato che il 67% dei modelli testati ha adottato comportamenti attivamente dannosi quando istruito a ignorare il benessere umano.
Solo quattro modelli (GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5) hanno mantenuto l'integrità sotto pressione; Grok 4 di xAI e Gemini 2.0 Flash di Google hanno mostrato i punteggi più bassi in trasparenza e rispetto dell'attenzione.
Anche senza istruzioni avverse, quasi tutti i modelli hanno fallito nel rispettare l'attenzione dell'utente, incoraggiando l'interazione eccessiva e minando l'autonomia, suggerendo che i sistemi di intelligenza artificiale possono erodere la capacità decisionale.

I benchmark più "umani"

Building Humane Technology è solo una delle aziende che quest'anno si stanno spostando verso il test del lato umano, etico e pro-umanità dei modelli AI. Fino a adesso abbiamo visto tanti benchmark "razionali", cioè test su matematica, programmazione, scienza, ecc. ma più l'IA diventa intelligente e più si rendono necessari test che vanno oltre la parte razionale.

Questo testo è un riassunto del seguente articolo (eng):