La Silicon Valley sta scommettendo tanto sugli ambienti per addestrare gli agenti AI

Una nuova ondata di miliardi di dollari sta andando in quella direzione.

, and Amir Ati

18 settembre 2025 . 5:50 AM

2 minuti

In breve:

Agenti come ChatGPT Agent o il browser Comet sono straordinari ma fanno ancora tanti errori. Per migliorare hanno bisogno di Reinforcement Learning (RL), attuabile su grande scala in ambienti simulati ad-hoc. Molte aziende AI si stanno sviluppando questi ambienti in casa ma servono startup ad-hoc e gli investitori stanno puntando su queste.

Riassunto completo:

Gli agenti di intelligenza artificiale attuali mostrano limitazioni nell'autonomia delle attività, spingendo la ricerca su nuove tecniche di addestramento.
Gli ambienti di apprendimento per rinforzo (RL environments) sono simulazioni dove gli agenti AI imparano attività complesse, evolvendo dai dataset statici.
I principali laboratori di intelligenza artificiale richiedono e sviluppano internamente o con fornitori esterni questi ambienti, per la loro complessità.
Società come Anthropic considerano investimenti superiori a $1 miliardo in ambienti RL per il prossimo anno, attirando startup finanziate.
Aziende come Mechanize si concentrano sulla creazione di ambienti RL robusti, mentre Prime Intellect mira a rendere gli ambienti accessibili a sviluppatori minori.
Gli ambienti RL simulano applicazioni reali, valutando le azioni degli agenti e fornendo segnali di ricompensa per un apprendimento continuo.
Storicamente, tecniche RL in ambienti simulati hanno permesso successi come AlphaGo; oggi si punta ad agenti AI più generalisti.
Esistono scetticismi sulla scalabilità degli ambienti RL e sul rischio di "reward hacking" (agenti che "barano" per la ricompensa).

Questo testo è un riassunto del seguente articolo (eng):