Perché Nvidia insegna ai robot a far volteggiare le penne e in che modo l'intelligenza artificiale generativa aiuta
Nvidia ha utilizzato GPT-4 per migliorare l'apprendimento per rinforzo per i robot creando ricompense migliori di quelle che potrebbero fare i programmatori umani.
La mano robotica di Nvidia nella simulazione.
Il campo della robotica, una classica applicazione dell’intelligenza artificiale, è stato recentemente ampliato dalla nuovissima e alla moda tecnologia dell’intelligenza artificiale generativa, programmi come i grandi modelli linguistici di OpenAI che possono interagire con le affermazioni del linguaggio naturale.
Ad esempio, l'unità DeepMind di Google quest'anno ha presentato RT-2, un grande modello linguistico che può essere presentato con un'immagine e un comando, per poi fornire sia un piano d'azione che le coordinate necessarie per completare il comando.
Ma esiste una soglia che i programmi generativi non possono oltrepassare: possono gestire compiti di “alto livello” come pianificare il percorso di un robot verso una destinazione, ma non possono gestire compiti di “basso livello”, come manipolare le articolazioni di un robot. robot per il controllo motorio fine.
Un nuovo lavoro di Nvidia pubblicato questo mese suggerisce che i modelli linguistici potrebbero essere più vicini a superare questo divario. Un programma chiamato Eureka utilizza modelli linguistici per fissare obiettivi che a loro volta possono essere utilizzati per dirigere i robot a un livello basso, incluso indurli a eseguire compiti motori fini come le mani del robot che manipolano oggetti.
Il programma Eureka è solo il primo di quelli che probabilmente dovranno essere molti sforzi per superare il divario perché Eureka opera all'interno di una simulazione computerizzata di robotica; non controlla ancora un robot fisico nel mondo reale.
"Sfruttare [modelli linguistici di grandi dimensioni] per apprendere compiti complessi di manipolazione di basso livello, come l'abile rotazione della penna, rimane un problema aperto", scrivono l'autore principale Yecheng Jason Ma e colleghi di Nvidia, Università della Pennsylvania, Caltech e Università di Texas ad Austin, nel documento "Eureka: Human-level, ricompensa design tramite codifica di grandi linguaggi, modelli", pubblicato questo mese sul server di prestampa arXiv.
C'è anche un post sul blog associato di Nvidia.
L'osservazione di Ma e del suo team concorda con il punto di vista dei ricercatori di lunga data nel campo della robotica. Secondo Sergey Levine, professore associato presso il dipartimento di ingegneria elettrica dell'Università della California a Berkeley, i modelli linguistici non sono un'ottima scelta per "l'ultimo centimetro, la parte che ha a che fare con il robot che tocca fisicamente le cose nel mondo". perché un compito del genere "è per lo più privo di semantica".
"Potrebbe essere possibile mettere a punto un modello linguistico per prevedere anche la presa, ma non è chiaro se ciò possa effettivamente aiutare, perché, beh, cosa ti dice il linguaggio su dove posizionare le dita sull'oggetto?" Levine ha detto a ZDNET. "Forse ti dice qualcosa, ma forse non così tanto da fare effettivamente la differenza."
Il documento Eureka affronta il problema indirettamente. Invece di fare in modo che il modello linguistico dica alla simulazione del robot cosa fare, viene utilizzato per creare "ricompense", obiettivi verso cui il robot può tendere. I premi sono un metodo ben consolidato in quello che viene chiamato apprendimento per rinforzo, una forma di intelligenza artificiale con apprendimento automatico su cui Levine di Berkeley e altri esperti di robotica fanno affidamento per l'addestramento dei robot.
L’ipotesi di Ma e del suo team è che un modello linguistico di grandi dimensioni possa svolgere un lavoro migliore nel creare tali ricompense per l’apprendimento per rinforzo rispetto a un programmatore di intelligenza artificiale umana.
In un processo noto come "evoluzione" della ricompensa, il programmatore scrive come richiesta per GPT-4 tutti i dettagli del problema, i dati sulla simulazione robotica - cose come i vincoli ambientali su ciò che un robot può fare - e le ricompense già provate e chiede a GPT-4 di migliorarlo. GPT-4 elabora quindi nuovi premi e li testa iterativamente.
Evolution è il nome da cui prende il nome il programma: "Kit di premi universali per agenti basato sull'evoluzione" o Eureka.
Lo schema di come funziona Eureka: prendere in considerazione tutti i progetti di base del programmatore umano per la simulazione del robot, quindi creare molte ricompense e provarle in modo iterativo.
Ma e il team hanno messo alla prova la loro invenzione in molte simulazioni di compiti come far aprire un cassetto a un braccio robotico. Eureka, riferiscono, "raggiunge prestazioni di livello umano nella progettazione delle ricompense attraverso una suite diversificata di 29 ambienti RL open source che includono 10 distinte morfologie di robot, tra cui quadrupede, quadricottero, bipede, manipolatore, oltre a diverse mani abili".
Un gruppo di attività di simulazione di robot per le quali il programma Eureka ha creato ricompense.
"Senza suggerimenti specifici per attività o modelli di ricompensa, Eureka genera autonomamente ricompense che superano le ricompense umane esperte nell'83% dei compiti e realizza un miglioramento medio normalizzato del 52%", riferiscono.
Uno degli esempi più sorprendenti di ciò che hanno ottenuto è stato quello di far girare una penna a una mano robotica simulata, come farebbe uno studente annoiato in classe. "Consideriamo la rotazione della penna, in cui una mano con cinque dita deve ruotare rapidamente una penna in configurazioni di rotazione predefinite per il maggior numero di cicli possibile", scrivono. Per fare ciò, combinano Eureka con un approccio di apprendimento automatico sviluppato alcuni anni fa chiamato “curriculum learning”, in cui un compito viene suddiviso in piccole parti.
"Abbiamo dimostrato per la prima volta le manovre rapide di rotazione della penna su una mano ombra antropomorfa simulata", riferiscono.
Gli autori fanno anche una scoperta sorprendente: se combinano le ricompense migliorate di Eureka con le ricompense umane, la combinazione ottiene risultati migliori nei test rispetto alle ricompense umane o Eureka da sole. Presumono che il motivo sia che gli esseri umani hanno una parte del puzzle che il programma Eureka non ha, vale a dire la conoscenza dello stato delle cose.
"I progettisti umani sono generalmente informati sulle variabili di stato rilevanti, ma sono meno abili nel progettare ricompense utilizzandole", scrivono. "Ciò ha un senso intuitivo poiché identificare le variabili di stato rilevanti che dovrebbero essere incluse nella funzione di ricompensa implica principalmente un ragionamento basato sul buon senso, ma la progettazione della ricompensa richiede conoscenze ed esperienza specializzate in RL."
Ciò indica una possibile partnership uomo-intelligenza artificiale simile a GitHub Copilot e altri programmi di assistente: "Insieme, questi risultati dimostrano la capacità di assistente di ricompensa di Eureka, integrando perfettamente la conoscenza dei progettisti umani sulle variabili di stato utili e compensando la loro minore competenza su come progettare ricompensa il loro utilizzo."