Questi modelli di intelligenza artificiale ragionano meglio dei loro colleghi open source, ma non possono comunque rivaleggiare con gli esseri umani
Uno studio ha testato la capacità dell'intelligenza artificiale di completare enigmi visivi come quelli trovati nei test del QI umano. È andata male.
L’intelligenza artificiale (AI) può superare i puzzle cognitivi progettati per i test del QI umano? I risultati sono stati contrastanti.
I ricercatori dell’Istituto di Ingegneria delle Scienze dell’Informazione (ISI) della USC Viterbi hanno studiato se i modelli multimodali di linguaggio di grandi dimensioni (MLLM) possono risolvere test visivi astratti solitamente riservati agli esseri umani.
Presentata la scorsa settimana alla Conference on Language Modeling (COLM 2024) a Filadelfia, la ricerca ha testato "le capacità di ragionamento astratto non verbale dei MLLM open source e closed source" verificando se i modelli di elaborazione delle immagini potessero fare un ulteriore passo avanti e dimostrare il ragionamento. abilità quando vengono presentati puzzle visivi.
"Ad esempio, se vedi un cerchio giallo che si trasforma in un triangolo blu, il modello può applicare lo stesso schema in uno scenario diverso?" ha spiegato Kian Ahrabian, un assistente di ricerca del progetto, secondo Neuroscience News. Questo compito richiede che il modello utilizzi la percezione visiva e il ragionamento logico in modo simile a come pensano gli esseri umani, rendendolo una sfida più complessa.
I ricercatori hanno testato 24 diversi MLLM su enigmi sviluppati dalle matrici progressive di Raven, un tipo standard di ragionamento astratto, e i modelli di intelligenza artificiale non hanno avuto esattamente successo.
"Erano davvero cattivi. Non riuscivano a ricavarne nulla", ha detto Ahrabian. I modelli hanno faticato sia a comprendere le immagini che a interpretare i modelli.
Tuttavia, i risultati variavano. Nel complesso, lo studio ha rilevato che i modelli open source avevano più difficoltà con i puzzle di ragionamento visivo rispetto ai modelli closed source come GPT-4V, sebbene questi non rivaleggiassero ancora con le capacità cognitive umane. I ricercatori sono stati in grado di aiutare alcuni modelli a ottenere risultati migliori utilizzando una tecnica chiamata suggerimento della catena di pensiero, che guida il modello passo dopo passo attraverso la parte di ragionamento del test.
Si ritiene che i modelli closed source funzionino meglio in test come questi perché sono sviluppati appositamente, addestrati con set di dati più grandi e presentano i vantaggi della potenza di calcolo delle aziende private. "Nello specifico, GPT-4V era relativamente bravo a ragionare, ma è tutt'altro che perfetto", ha osservato Ahrabian.
"Abbiamo ancora una comprensione molto limitata di ciò che i nuovi modelli di intelligenza artificiale possono fare e finché non comprenderemo queste limitazioni, non potremo rendere l'intelligenza artificiale migliore, più sicura e più utile", ha affermato Jay Pujara, professore associato di ricerca e autore. "Questo documento aiuta a colmare un pezzo mancante della storia delle difficoltà dell'intelligenza artificiale."
Trovando i punti deboli nella capacità di ragionamento dei modelli di intelligenza artificiale, ricerche come questa possono aiutare a indirizzare gli sforzi per arricchire quelle capacità su tutta la linea, con l’obiettivo di raggiungere una logica a livello umano. Ma non preoccupatevi: per il momento non sono paragonabili alla cognizione umana.