Ricerca nel sito web

RT-2 di DeepMind rende il controllo del robot una questione di chat AI


Istruire un robot può essere solo una questione di un ampio modello linguistico che gestisce le azioni con lo stesso prompt delle immagini e delle parole.

Il trasformatore robotico versione 2 di DeepMind è un modello linguistico di grandi dimensioni addestrato non solo su immagini e testo, ma anche sui dati coordinati del movimento di un robot nello spazio. Una volta addestrato, gli si può presentare un'immagine e un comando e sputare sia un piano d'azione che le coordinate necessarie per completare il comando.

Un elemento chiave del futuro della robotica sarà il modo in cui gli esseri umani potranno istruire le macchine in tempo reale. Ma quale tipo di istruzione è una questione aperta in robotica.

Una nuova ricerca dell'unità DeepMind di Google propone che un modello linguistico di grandi dimensioni, simile al ChatGPT di OpenAI, quando viene data un'associazione tra parole e immagini e un trattino di dati registrati da un robot, crea un modo per digitare istruzioni per una macchina con la stessa semplicità con cui si conversa con ChatGPT.

L'articolo di DeepMind, "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", scritto da Anthony Brohan e colleghi e pubblicato in un post sul blog, introduce RT-2, quello che chiama un "vision- modello “linguaggio-azione”. (Esiste anche un repository GitHub associato.) L'acronimo RT sta per "trasformatore robotico".

La sfida è come ottenere un programma che utilizzi immagini e testo per produrre come output una serie di azioni che siano significative per un robot. "Per consentire ai modelli del linguaggio visivo di controllare un robot, devono essere addestrati a produrre azioni", come affermano.

L'intuizione chiave del lavoro è che "rappresentiamo le azioni dei robot come un altro linguaggio", scrivono Brohan e il suo team. Ciò significa che le azioni registrate da un robot possono diventare la fonte di nuove azioni nello stesso modo in cui l'apprendimento del testo da Internet fa sì che ChatGPT generi nuovo testo.

Le azioni del robot sono codificate nel trasformatore robotico come coordinate nello spazio, note come gradi di libertà.

"Lo spazio d'azione è costituito dallo spostamento posizionale e rotazionale di 6-DoF [grado di libertà] dell'effettore finale del robot, nonché dal livello di estensione della pinza del robot e da uno speciale comando discreto per terminare l'episodio, che dovrebbe essere attivato dalla politica per segnalare il completamento con successo."

I token vengono inseriti nel programma durante l'allenamento nella stessa frase dei token linguistici delle parole e dei token immagine delle immagini. Le coordinate del robot diventano solo un'altra parte di una frase.

Le azioni del robot sono codificate nel trasformatore robotico come coordinate nello spazio, note come gradi di libertà. I token vengono inseriti nel programma durante l'allenamento nella stessa frase dei token linguistici delle parole e dei token immagine delle immagini. Le coordinate del robot diventano solo un'altra parte di una frase.

L'uso delle coordinate è una pietra miliare significativa. Di solito, la fisica dei robot viene specificata tramite una programmazione di basso livello diversa dal linguaggio e dalle reti neurali dell’immagine. Qui è tutto mescolato.

Il programma RT si basa su due precedenti sforzi di Google, chiamati PaLI-X e PaLM-E, entrambi cosiddetti modelli del linguaggio visivo. Come suggerisce il nome, i modelli del linguaggio visivo sono programmi che mescolano dati del testo con dati delle immagini, in modo che il programma sviluppi la capacità di mettere in relazione i due, come assegnare didascalie alle immagini o rispondere a una domanda su cosa c'è in un'immagine. .

Mentre PaLI-X si concentra solo su attività di immagini e testo, PaLM-E, introdotto di recente da Google, fa un ulteriore passo avanti utilizzando il linguaggio e l'immagine per guidare un robot generando comandi come output. RT va oltre il PaLM-E nel generare non solo il piano d'azione ma anche le coordinate del movimento nello spazio.

RT-2 "rappresenta un progresso significativo", ha affermato Sergey Levine, professore associato presso il dipartimento di ingegneria elettrica dell'Università della California a Berkeley, in una corrispondenza e-mail con ZDNET. "Essenzialmente RT-2 può essere pensato come una versione end-to-end di ciò che PaLM-E + RT1 realizzano, in un unico modello", ha affermato Levine, che ha lavorato al progetto PaLM-E. "Ciò rende il trasferimento della conoscenza su scala Internet ai robot più diretto e potrebbe fornire una classe di approcci più scalabili in futuro."

Nel caso dell'RT-2 si tratta del successore della versione dell'anno scorso, RT-1. La differenza tra RT-1 e RT-2 è che il primo RT era basato su un piccolo programma di linguaggio e visione, EfficientNet-B3. Ma RT-2 si basa su PaLI-X e PaLM-E, i cosiddetti modelli linguistici di grandi dimensioni. Ciò significa che hanno molti più pesi neurali, o parametri, che tendono a rendere i programmi più efficienti. PaLI-X ha 5 miliardi di parametri in una versione e 55 miliardi in un'altra. Il PaLM-E ne ha 12 miliardi.

L'addestramento di RT-2 incorpora combinazioni di immagini e testo e azioni estratte dai dati registrati del robot.

Una volta addestrato l'RT-2, gli autori eseguono una serie di test, che richiedono al robot di raccogliere oggetti, spostarli, lasciarli cadere, ecc., il tutto digitando comandi in linguaggio naturale e un'immagine, al prompt. , proprio come chiedere a ChatGPT di comporre qualcosa.

Ad esempio, quando viene presentato un prompt, in cui l'immagine mostra un tavolo con un mucchio di lattine e una barretta di cioccolato:

Given  Instruction: Pick the object that is different from all other objects

Il robot genererà un'azione accompagnata dalle coordinate per raccogliere la barretta di cioccolato:

Prediction: Plan: pick rxbar chocolate. Action: 1 128 129 125 131 125 128 127

I numeri a tre cifre sono le chiavi di un codice di movimenti di coordinate.

RT-2, se richiesto, genererà sia un piano d'azione che una serie di coordinate nello spaziatore per eseguire tali azioni.

Un aspetto chiave è che molti elementi delle attività potrebbero essere oggetti nuovi di zecca, mai visti prima. "RT-2 è in grado di generalizzare a una varietà di situazioni del mondo reale che richiedono ragionamento, comprensione dei simboli e riconoscimento umano", riferiscono.

Di conseguenza, osserviamo una serie di capacità emergenti. "Il modello è in grado di riutilizzare le abilità di prelievo e posizionamento apprese dai dati del robot per posizionare oggetti vicino a posizioni semanticamente indicate, come numeri o icone specifici, nonostante tali segnali non siano presenti nei dati del robot. Il modello può anche interpretare le relazioni tra oggetti per determinare quale oggetto scegliere e dove posizionarlo, nonostante tali relazioni non siano fornite nelle dimostrazioni del robot."

Nei test contro RT-1 e altri programmi, RT-2 che utilizza PaLI-X o PaLM-E è molto più abile nel completare le attività, raggiungendo in media circa il 60% delle attività con oggetti mai visti prima, contro meno del 50% per i programmi precedenti.

Esistono anche differenze tra PaLI-X, che non è sviluppato specificatamente per i robot, e PaLM-E, che invece lo è. "Notiamo anche che mentre il modello più ampio basato su PaLI-X si traduce in media in una migliore comprensione dei simboli, nel ragionamento e nelle prestazioni di riconoscimento delle persone, il modello più piccolo basato su PaLM-E ha un vantaggio sui compiti che coinvolgono il ragionamento matematico." Gli autori attribuiscono questo vantaggio alla "diversa miscela di pre-addestramento utilizzata in PaLM-E, che si traduce in un modello più capace nei calcoli matematici rispetto al PaLI-X, per lo più pre-addestrato visivamente".

Gli autori concludono che l'utilizzo di programmi di visione-linguaggio-azione può "mettere il campo dell'apprendimento dei robot in una posizione strategica per migliorare ulteriormente con i progressi in altri campi", in modo che l'approccio possa trarre vantaggio dal miglioramento della gestione del linguaggio e delle immagini.

C'è però un avvertimento, che risale all'idea del controllo del robot in tempo reale. I modelli linguistici di grandi dimensioni richiedono un elevato utilizzo di calcolo, il che diventa un problema per ottenere risposte.

"Il costo di calcolo di questi modelli è elevato e, poiché questi metodi vengono applicati a contesti che richiedono controllo ad alta frequenza, l'inferenza in tempo reale può diventare un grave collo di bottiglia", scrivono. "Una direzione entusiasmante per la ricerca futura è quella di esplorare tecniche di quantizzazione e distillazione che potrebbero consentire a tali modelli di funzionare a velocità più elevate o su hardware a basso costo."

Articoli correlati