Ricerca nel sito web

Il nuovo sistema RT-2 di Google DeepMind consente ai robot di eseguire compiti innovativi


Ci stiamo avvicinando a vivere la trama del film Terminator?

Con l’avanzare dell’intelligenza artificiale, guardiamo a un futuro con più robot e automazioni che mai. Siamo già intorno a noi: il robot aspirapolvere che può spostarsi abilmente nella tua casa, un animale domestico robot per intrattenere i tuoi amici pelosi e i robot rasaerba che si occupano delle faccende del fine settimana. Sembra che ci stiamo avvicinando a vivere i Jetsons nella vita reale. Ma per quanto intelligenti possano sembrare, questi robot hanno i loro limiti.

Google DeepMind ha presentato RT-2, il primo modello VLA (visione-linguaggio-azione) per il controllo dei robot, che porta effettivamente il gioco della robotica a diversi livelli. Il sistema è stato addestrato su dati di testo e immagini da Internet, proprio come vengono addestrati i grandi modelli linguistici dietro i chatbot AI come ChatGPT e Bing.

I nostri robot a casa possono svolgere compiti semplici per i quali sono programmati. Passa l'aspirapolvere sui pavimenti, ad esempio, e se il sensore sul lato sinistro rileva un muro, prova ad aggirarlo. Ma i tradizionali sistemi di controllo robotico non sono programmati per gestire nuove situazioni e cambiamenti inaspettati: spesso non possono eseguire più di un compito alla volta.

RT-2 è progettato per adattarsi a nuove situazioni nel tempo, apprendere da più fonti di dati come il web e i dati di robotica per comprendere sia il linguaggio che l'input visivo ed eseguire compiti che non ha mai incontrato né è stato addestrato a eseguire.

"Un modello di linguaggio visivo (VLM) pre-addestrato su dati su scala web sta imparando dai dati di robotica RT-1 per diventare RT-2, un modello di azione di linguaggio visivo (VLA) in grado di controllare un robot," da Google Mente profonda.

Un robot tradizionale può essere addestrato a raccogliere una palla e a inciampare quando prende un cubo. L'approccio flessibile di RT-2 consente a un robot di allenarsi a raccogliere una palla e di capire come regolare le sue estremità per raccogliere un cubo o un altro giocattolo mai visto prima.

Invece del lungo addestramento nel mondo reale su miliardi di punti dati richiesto dai robot tradizionali, in cui devono riconoscere fisicamente un oggetto e imparare a raccoglierlo, RT-2 viene addestrato su una grande quantità di dati e può trasferire quella conoscenza in azione, eseguendo compiti mai sperimentati prima.

"La capacità di RT-2 di trasferire informazioni in azioni promette ai robot di adattarsi più rapidamente a situazioni e ambienti nuovi", ha affermato Vincent Vanhoucke, responsabile della robotica di Google DeepMind. "Nel testare i modelli RT-2 in oltre 6.000 prove robotiche, il team ha scoperto che RT-2 funzionava altrettanto bene del nostro modello precedente, RT-1, sui compiti presenti nei suoi dati di addestramento, o compiti "visti". E è quasi raddoppiato le sue prestazioni su scenari nuovi e mai visti sono al 62% rispetto al 32% di RT-1."

Alcuni degli esempi di RT-2 al lavoro pubblicati da Google DeepMind.

Il team di DeepMind ha adattato due modelli esistenti, Pathways Language and Image Model (PaLI-X) e Pathways Language Model Emfilled (PaLM-E), per addestrare RT-2. PaLI-X aiuta il modello a elaborare dati visivi, addestrati su enormi quantità di immagini e informazioni visive con altre descrizioni ed etichette online corrispondenti. Con PaLI-X, RT-2 può riconoscere diversi oggetti, comprendere le scene circostanti per contesto e collegare i dati visivi alle descrizioni semantiche.

PaLM-E aiuta RT-2 a interpretare il linguaggio, in modo che possa comprendere facilmente le istruzioni e collegarle a ciò che lo circonda e a ciò che sta attualmente facendo.

Mentre il team di DeepMind adattava questi due modelli affinché funzionassero come spina dorsale di RT-2, ha creato il nuovo modello VLA, consentendo a un robot di comprendere il linguaggio e i dati visivi e successivamente generare le azioni appropriate di cui ha bisogno.

RT-2 non è un robot in sé: è un modello in grado di controllare i robot in modo più efficiente che mai. Un robot abilitato per RT-2 può eseguire attività che variano in gradi di complessità utilizzando dati visivi e linguistici, come organizzare i file in ordine alfabetico leggendo le etichette sui documenti e ordinandoli, quindi riponendoli nei posti corretti.

Potrebbe anche gestire compiti complessi. Ad esempio, se dicessi "Devo spedire questo pacco, ma ho finito i francobolli", RT-2 potrebbe identificare cosa è necessario fare prima, come trovare un ufficio postale o un commerciante che vende francobolli nelle vicinanze, prendere il pacco e gestire la logistica da lì.

"RT-2 non solo mostra come i progressi nell'intelligenza artificiale si stanno riversando rapidamente nella robotica, ma mostra anche un'enorme promessa per robot più generici", ha aggiunto Vanhoucke.

Speriamo che la "promessa" sia più orientata a vivere la trama dei Jetsons che a quella di Terminator.

Articoli correlati