Salta al contenuto

È uscito Gemini Robotics 1.5

E funziona molto bene.

In breve:

Google DeepMind ha introdotto i modelli Gemini Robotics 1.5 e Gemini Robotics-ER 1.5, che permettono ai robot di pianificare, ragionare, cercare informazioni online e generalizzare le competenze (cioè la possibilità di agire in più contesti, dalla cucina alle faccende di casa). I robot ora gestiscono compiti complessi come smistare i rifiuti verificando le regole di riciclo online. In fondo alla rassegna il video di Google DeepMind.

Riassunto completo:

  • Google DeepMind ha rilasciato i modelli di intelligenza artificiale Gemini Robotics 1.5 e Gemini Robotics-ER 1.5 per robot.
  • I modelli consentono ai robot di pianificare, ragionare, cercare informazioni online e trasferire competenze tra agenti robotici.
  • Gemini Robotics-ER 1.5 (modello vision-language, VLM) crea piani multi-step e utilizza Google Search per dati.
  • Gemini Robotics 1.5 (modello vision-language-action, VLA) traduce istruzioni in comandi motori per i movimenti fisici.
  • I robot ora mostrano capacità di generalizzazione, applicando la conoscenza a nuove situazioni e completando compiti complessi.
  • Esempi includono la separazione della biancheria per colore o la verifica delle regole di riciclo online per smaltire i rifiuti.
  • Un esperimento ha registrato un tasso di successo del 20-40% per i robot nello smistamento dei rifiuti basato su ricerca online e percezione visiva.
  • Gemini Robotics-ER 1.5 è disponibile tramite Gemini API; Gemini Robotics 1.5 è riservato a partner selezionati.

Questo testo è un riassunto del seguente articolo (eng):

Google’s Robots Can Now Think, Search the Web and Teach Themselves New Tricks - Decrypt
DeepMind’s updated Gemini Robotics models mark a shift from single-task machines to robots that plan multi-step missions.

Alternativa in italiano:

Google aggiorna “Gemini per i robot”: la versione 1.5 può ragionare sugli ambienti in cui opera
Gemini Robotics 1.5 porta due modelli agentici che pensano prima di agire: un orchestratore per il ragionamento e un VLA per l’esecuzione e il trasferimento di abilità nel mondo reale

Commenti

Più recenti