Meta rilascia OpenEQA per testare il modo in cui l'intelligenza artificiale comprende il mondo, per robot domestici e occhiali intelligenti
Immagina un mondo in cui un agente AI possa comprendere il mondo.
Un esempio di come OpenEQA di Meta potrebbe creare intelligenza incarnata in casa
Meta vuole aiutare l'intelligenza artificiale a comprendere il mondo che la circonda e, nel frattempo, a diventare più intelligente. Giovedì la società ha presentato Open-Vocabulary Emfilled Question Answering (OpenEQA) per mostrare come l’intelligenza artificiale potrebbe comprendere gli spazi circostanti. Il framework open source è progettato per fornire agli agenti di intelligenza artificiale input sensoriali che gli consentano di raccogliere indizi dal suo ambiente, "vedere" lo spazio in cui si trova e fornire valore agli esseri umani che chiederanno assistenza all'IA in astratto.
"Immaginate un agente IA incarnato che funge da cervello di un robot domestico o da un elegante paio di occhiali intelligenti", ha spiegato Meta. "Un tale agente deve sfruttare modalità sensoriali come la visione per comprendere l'ambiente circostante ed essere in grado di comunicare in un linguaggio chiaro e quotidiano per assistere efficacemente le persone."
Meta ha fornito una serie di esempi di come OpenEQA potrebbe funzionare in natura, inclusa la richiesta agli agenti di intelligenza artificiale dove gli utenti hanno posizionato un oggetto di cui hanno bisogno o se hanno ancora del cibo nella dispensa.
"Diciamo che ti stai preparando per uscire di casa e non riesci a trovare il badge dell'ufficio. Potresti chiedere ai tuoi occhiali intelligenti dove li hai lasciati e l'agente potrebbe rispondere che il badge è sul tavolo da pranzo sfruttando la sua memoria episodica ", ha scritto Meta. "Oppure, se avessi fame mentre torni a casa, potresti chiedere al tuo robot domestico se è rimasta della frutta. Basandosi sulla sua esplorazione attiva dell'ambiente, potrebbe rispondere che ci sono banane mature nel cesto della frutta."
Sembra che siamo sulla buona strada verso un robot domestico o un paio di occhiali intelligenti che potrebbero aiutarci a gestire le nostre vite. Tuttavia, c'è ancora una sfida significativa nello sviluppo di una tale tecnologia: Meta ha scoperto che i modelli di visione+linguaggio (VLM) funzionano in modo deplorevole. "In effetti, per le questioni che richiedono la comprensione spaziale, i VLM di oggi sono quasi 'ciechi': l'accesso ai contenuti visivi non fornisce alcun miglioramento significativo rispetto ai modelli solo linguistici", ha affermato Meta.
Questo è esattamente il motivo per cui Meta ha reso OpenEQA open source. L’azienda afferma che lo sviluppo di un modello di intelligenza artificiale in grado di “vedere” veramente il mondo che lo circonda come fanno gli esseri umani, in grado di ricordare dove sono posizionate le cose e quando, e quindi in grado di fornire valore contestuale a un essere umano sulla base di query astratte, è estremamente difficile da creare. . L’azienda ritiene che una comunità di ricercatori, tecnologi ed esperti dovrà lavorare insieme per trasformarlo in realtà.
Meta afferma che OpenEQA ha più di 1.600 coppie di domande e risposte "non basate su modelli" che potrebbero rappresentare il modo in cui un essere umano interagirebbe con l'intelligenza artificiale. Sebbene l’azienda abbia convalidato le coppie per garantire che l’algoritmo possa rispondere correttamente, è necessario lavorare ancora.
"Ad esempio, per la domanda 'Sono seduto sul divano del soggiorno e guardo la TV. Quale stanza è direttamente dietro di me?', i modelli indovinano stanze diverse essenzialmente in modo casuale senza beneficiare in modo significativo della memoria episodica visiva che dovrebbe fornire una comprensione dello spazio", ha scritto Meta. "Ciò suggerisce che sono necessari ulteriori miglioramenti sia sul fronte della percezione che su quello del ragionamento prima che gli agenti di intelligenza artificiale incarnati alimentati da tali modelli siano pronti per il debutto."
Quindi è ancora presto. Se OpenEQA mostra qualcosa, tuttavia, è che le aziende stanno lavorando davvero duramente per procurarci agenti di intelligenza artificiale in grado di rimodellare il modo in cui viviamo.