Mi dispiace essere così diretto ma è vero: settimana scorsa è uscito un paper che ha già ampiamente fatto il giro di internet perché è stato scritto da Apple. Stiamo parlando di "The Illusion of Thinking", reperibile a questo indirizzo.
Io ho dato un'occhiata sia al paper che a un "contro-paper" di Sean Goedecke, un famoso software engineer di GitHub (che linkiamo spesso su MT), che in "The illusion of the Illusion of Thinking", reperibile qui, ha cercato di confutare il lavoro di Apple.
Per farla breve, Apple ha cercato di dimostrare che i modelli di reasoning non ragionano davvero perché si fermano subito su problemi complessi che non siano legati a matematica o programmazione. Tutti i benchmark (cioè quei test ufficiali che utilizziamo per valutare l'abilità di un modello) riguardano queste due materie ma Apple dice che è ovvio che passano i test perché i modelli sono già addestrati su quelle materie. Ma quando si tratta di andare in territori sconosciuti allora falliscono, ecco perché ha deciso di contro testare tutto con dei famosi rompicapo ad alta complessità.
Il nostro Sean però si è letto l'intero paper e ha deciso di svolgere alcuni esperimenti in autonomia. Nel paper Apple mette alla prova DeepSeek con un rompicapo di nome la "Torre di Hanoi":
Questo contenuto è per i Plus
Fai level up della tua cultura e sostieni un progetto indipendente.
Leggi di più
Hai già un account? Accedi e poi fai l'upgrade