Ricerca nel sito web

Pensi che l’intelligenza artificiale possa risolvere tutti i tuoi problemi aziendali? Il nuovo studio di Apple dimostra il contrario


Apple ha appena messo in luce importanti crepe nelle capacità dell'intelligenza artificiale. Scopri perché i LLM non sono ancora in grado di gestire ragionamenti complessi e cosa significa per i tuoi processi decisionali.

Ai tempi della facoltà di ingegneria, avevo un professore che si vantava del compito fuorviante. Faceva domande contenenti elementi di dubbia rilevanza per l'argomento in questione nella speranza che ci distogliessero dalla concentrazione o che fornissero una distrazione che ci avrebbe mandato in una tana di ricerche non necessarie.

Ecco un esempio del tipo di domanda che farebbe. Le sue domande erano molto più difficili e incentrate sull'ingegneria, ma ho usato questa domanda esatta perché è direttamente correlata allo studio di cui discuteremo:

Venerdì Oliver raccoglie 44 kiwi. Poi raccoglie 58 kiwi sabato. Domenica raccoglie il doppio dei kiwi rispetto a venerdì, ma cinque di essi erano un po' più piccoli della media. Quanti kiwi ha Oliver?

L'obiettivo del mio professore era aiutarci a identificare ciò che era rilevante per il progetto in questione e aiutarci a imparare a ignorare o mettere da parte tutte le distrazioni naturali che derivano dalla ricerca.

Inizialmente è stata una serie di lezioni molto dolorose, ma alla fine molto utili per gli ingegneri del primo anno.

Mi sono ricordato di questa sfida a causa di un documento di ricerca pubblicato questo mese da un team di ricercatori di intelligenza artificiale e apprendimento automatico di Apple guidati da Samy Bengio, direttore senior, e Oncel Tuzel, illustre scienziato.

Il loro articolo, "GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models", includeva il problema di matematica mostrato sopra. Se guardi la domanda, la frase "ma cinque di loro erano un po' più piccoli della media" non dovrebbe avere alcun impatto sul conteggio complessivo dei kiwi.

I ricercatori hanno scoperto che i modelli linguistici di grandi dimensioni (LLM) come GPT-40-mini, GPT-40, o1-mini e o1-preview di OpenAI cadono preda del tipo di domande che coinvolgono il ragionamento distinto dall'elaborazione del testo di altissimo livello.

Ora, per essere onesti, ho eseguito la query su ChatGPT GPT-4o, che ha risposto correttamente. Non direi che ciò significhi che le conclusioni di Apple siano errate, ma solo che ChatGPT ha gestito correttamente questo caso.

D’altra parte, sappiamo tutti che l’intelligenza artificiale avrebbe potuto rispondere altrettanto facilmente discutendo sul numero di uccelli Kiwi che sgambettano nelle foreste notturne di Otorohanga, in Nuova Zelanda.

È logico, quindi, che la conclusione finale della ricerca di Apple sia che gli LLM sono incapaci di ragionare in modo vero e si affidano invece alla corrispondenza dei modelli.

In una certa misura, questa è una sorta di conclusione che ci dice qualcosa che non sappiamo. Anche così, è positivo che ricercatori, del calibro di quello che Apple ha applicato a questo problema, lo confermino scientificamente. E con questo, tuffiamoci nella scienza.

Set di dati di riferimento

A quanto pare, chiedere a ChatGPT di tradurre la Costituzione in linguaggio pirata non è un modo completo per testare i LLM, anche se si traduce in un divertimento divertente.

Invece, i ricercatori hanno sviluppato strutture di test di intelligenza artificiale molto meno divertenti ma più efficaci, progettate per misurare la capacità dei modelli linguistici di valutare i problemi di matematica.

Nel 2021, OpenAI ha introdotto GSM8K, un set di dati di riferimento utilizzato per valutare il ragionamento degli LLM. L'acronimo indica cosa contiene il set di dati: 8.000 problemi di matematica delle scuole elementari.

Il set di dati, quando applicato a un’intelligenza artificiale, aiuta i ricercatori a determinare quanto sia accurata l’intelligenza artificiale e se sia in grado di risolvere problemi di ragionamento e matematica di base. GSM8K è considerato il gold standard per valutare le capacità di ragionamento matematico degli LLM, in particolare con problemi aritmetici e verbali.

Poiché è open source, GSM8K è stato ampiamente utilizzato anche nel campo dell'intelligenza artificiale (sia all'interno che all'esterno di OpenAI) per testare attività che richiedono un ragionamento passo passo. Ha una chiara struttura del problema, che lo ha reso uno strumento affidabile per i ricercatori di intelligenza artificiale che eseguono test in fase iniziale sui loro LLM.

I ricercatori Apple, invece, ritengono che questo set di dati sia fondamentalmente imperfetto. Sostengono che i risultati dei test di GSM8K potrebbero presentare una visione eccessivamente positiva delle capacità di un dato LLM. Questo perché il set di test si basa su domande fisse e familiari che potrebbero essere state utilizzate nel set di formazione del LLM.

Il documento sopra citato introduce un nuovo set di dati, GSM-Symbolic, che secondo i ricercatori supera le limitazioni di GSM8K. GSM-Symbolic offre problemi più vari e complessi, che impediscono ai LLM di elaborare i dati di allenamento memorizzati.

Il documento menziona che alcuni modelli, come Gemma2-9B di Google, hanno mostrato risultati nettamente diversi utilizzando i due set di dati di riferimento. Gemma2-9B è stato in grado di risolvere correttamente i problemi nel set di dati GSM8K di OpenAI, ma la precisione è scesa del 15% quando è stato sottoposto alla serie di test GSM-Symbolic di Apple.

I ricercatori di Apple hanno scoperto che man mano che le domande aumentavano in complessità (lo chiamavano "aggiunta di clausole"), la precisione diminuiva. Questa metrica non veniva mostrata in GSM8K perché i dati erano corretti. Secondo Apple, i modelli che hanno mostrato una precisione compresa tra l’80 e il 90% potrebbero scendere fino al 40% con l’aumento del numero di clausole.

Apple sostiene che esiste un certo rischio di contaminazione dei dati in GSM8K, il che significa che i modelli potrebbero essere stati addestrati su parti del set di dati. GitHub, che ospita il set di dati GSM8K, è stato utilizzato per aiutare ad addestrare i LLM.

Usare GitHub per l'addestramento dei dati non mi è mai sembrata una buona idea. Ho un vecchio codice nel mio repository GitHub e sono ben consapevole di quanto sia pieno di bug. Non vorrei usarlo come codice di esempio per formare i miei studenti, per non parlare di usarlo per insegnare alle IA su cui facciamo affidamento per ottenere buone risposte.

In ogni caso, GSM-Symbolic di Apple non sembra essere open source. Quindi, anche se i ricercatori di Apple sostengono che sia la soluzione migliore per testare gli LLM, non puoi accedervi a meno che non lavori in Apple nel gruppo giusto e sanguini in sei colori.

Cosa significa tutto questo?

Una parte di me è sospettosa riguardo alla motivazione di Apple per questo documento, in quanto sembra una sorta di confronto competitivo super-nerd di Open Al, soprattutto dal momento che Apple sta uscendo con le proprie offerte Al.

D'altra parte, Apple sta pianificando di includere ChatGPT nelle sue offerte di Apple Intelligence, quindi non sembra appropriato attribuire la pura e semplice ottusità competitiva come giustificazione per la produzione di un documento come questo. Pertanto, credo che le motivazioni fossero probabilmente proprio quelle che sembrano: genuino interesse accademico nel migliorare la comprensione delle prestazioni e dell’accuratezza del modello di apprendimento.

La ricerca dimostra ciò che praticamente sapevamo da sempre: gli LLM ottengono risultati migliori nella corrispondenza dei modelli rispetto al ragionamento logico. Usano il riconoscimento dei modelli nella loro formazione ed elaborazione, piuttosto che nella deduzione vera e propria. Il fatto che gran parte delle informazioni mondiali possano essere rappresentate in modo convincente semplicemente attraverso il riconoscimento di schemi è sorprendente, ma non ci fornisce ancora computer in grado di ragionare davvero.

Il ragionamento matematico è discontinuo. L'esempio che i ricercatori di Apple hanno utilizzato come test fallito è stato superato durante i miei test. Questo non vuol dire che il team di Apple abbia torto, ma parte dalla premessa che le IA sono incoerenti e in continua evoluzione. Pertanto, fare affidamento sugli LLM per i risultati matematici non è necessariamente un approccio pratico. Se vuoi una buona matematica, usa algoritmi della vecchia scuola e metodi tradizionali di test e convalida dell'ingegneria del software o almeno ricontrolla i risultati forniti dall'intelligenza artificiale.

Un'altra preoccupazione per coloro che considerano di fare affidamento sui dati LLM negli scenari di produzione è il calo di precisione con l'aumentare della complessità. Sebbene questo modello rifletta accuratamente il modo in cui gli esseri umani gestiscono i dati (più diventano complessi, più grattacapi abbiamo), la differenza tra noi e gli LLM è che pratichiamo il ragionamento reale.

Quali sono allora le implicazioni commerciali dei risultati della ricerca contenuti nel documento di Apple? Questo è il prossimo passo.

Implicazioni aziendali e mitigazione del rischio

Le implicazioni sono ovvie a meno che tu non stia guardando l'intelligenza artificiale attraverso occhiali color rosa. L'intelligenza artificiale è uno strumento utile, ma non fare affidamento su di essa per gestire decisioni complesse. Non è saggio abdicare a ogni responsabilità nei confronti di un'intelligenza artificiale o di un LLM perché è una nuova tecnologia promettente.

Ho mostrato alcune volte come ho utilizzato l'intelligenza artificiale per ottenere alcune informazioni basate sui dati aziendali, ma ho sempre testato i risultati riflettendo attentamente sull'analisi, vedendo se incontrava la mia conoscenza interiore e, alla fine, - prendere le mie determinazioni e decisioni. L'intelligenza artificiale è stata uno strumento di supporto interessante, ma il mio background gestionale è stato fondamentale per prendere decisioni per la mia attività.

Le IA sono piene di potenziale. Li ho usati per aiutarmi a programmare, per esempio. Sono sicuro che ChatGPT mi ha fatto risparmiare un mese di tempo di programmazione l'anno scorso. Ma non ho fatto affidamento sull'intelligenza artificiale per progettare il mio codice o scrivere le sezioni della logica aziendale. L'ho usato semplicemente per fornirmi interfacce per API molto comuni che altrimenti avrei dovuto dedicare tempo a cercare e che erano facili da testare.

Non aspettarti che l'intelligenza artificiale sostituisca i tuoi esperti in materia. L’intelligenza artificiale può supportare gli sforzi degli esperti umani, ma quando si tratta di ragionamento profondo o pensiero critico, l’intelligenza artificiale è fallibile. Guardala in questo modo: se non ti fideresti di una matricola universitaria o del figlio del tuo vicino per prendere decisioni sulla tua attività, non fidarti di un'intelligenza artificiale.

Sappiamo che le IA hanno allucinazioni. Sappiamo che a volte arrivano a conclusioni completamente folli sulla base dei dati che sono stati loro forniti. Se la tua azienda fa affidamento sui dati per prendere decisioni, non dare per scontato che un'intelligenza artificiale ti fornisca i dati giusti.

Questo ci porta alla mitigazione del rischio: investire con cautela nell’intelligenza artificiale. Cerca aree strategiche in cui eccelle.

Ad esempio, nel mio lavoro quotidiano, trovo che l'intelligenza artificiale offra risultati elevati nelle funzionalità di fotoritocco di Photoshop per rimuovere gli sfondi o nel gimbal che punta la fotocamera verso di me, indipendentemente da dove mi trovo nella stanza durante la registrazione di un filmato su YouTube. video. Lo uso anche per testo generativo e immagini generative, ma mai per progetti mission-critical.

Assicuratevi assolutamente di disporre di sistemi per garantire che la supervisione umana avvenga effettivamente e non venga trascurata. È necessario coinvolgere costantemente l’intelligenza umana nel ciclo, soprattutto per le operazioni critiche.

Estendi questa cautela alla tua squadra. Tutti hanno letto e sentito parlare delle meraviglie dell'intelligenza artificiale generativa, ma potrebbero non essere consapevoli dei suoi limiti. Assicurati che tutti i membri del tuo team sappiano che strumenti come i LLM sono proprio questo: strumenti. Resisti alla tentazione dell'autocompiacimento.

Conclusioni della ricerca di Apple

È interessante notare che Apple, che ha investito così tanto marketing in Apple Intelligence, stia anche mostrando i limiti della tecnologia. In un certo senso, questo tipo di trasparenza è incoraggiante.

Apple utilizza l’apprendimento automatico come strumento per migliorare regolarmente le proprie capacità di elaborazione delle foto. Ma sebbene queste tecnologie utilizzino molta matematica, non richiedono un ragionamento umano indipendente.

Aspettatevi di continuare a vedere Apple investire pesantemente nelle tecnologie AI in cui l’intelligenza artificiale è forte, anche lungo la catena di fornitura dell’azienda. Ma non mi aspetto che il team esecutivo di Apple cederà il processo decisionale a un LLM.

Questa ricerca mostra sia che i LLM presentano notevoli limitazioni all’aumentare della complessità del progetto, sia che Apple sta investendo nel testare i limiti dei LLM e nel prendere in considerazione tali risultati in quanto fa affidamento su queste nuove tecnologie.

Per un’azienda raramente trasparente riguardo al processo decisionale alla base, questo documento rappresenta una visione convincente della ricerca dettagliata che Apple sta conducendo per aiutarla a comprendere i punti di forza e i limiti della nuova tecnologia più in voga del decennio.

Cosa ne pensi? Apple è arrivata alle giuste conclusioni? Hai provato a utilizzare l’intelligenza artificiale per il processo decisionale? Per cosa stai utilizzando gli LLM adesso e per cosa speri di utilizzarli in futuro? Fatecelo sapere nei commenti qui sotto.

You can follow my day-to-day project updates on social media. Be sure to subscribe to my weekly update newsletter, and follow me on Twitter/X at @DavidGewirtz, on Facebook at Facebook.com/DavidGewirtz, on Instagram at Instagram.com/DavidGewirtz, and on YouTube at YouTube.com/DavidGewirtzTV.

Articoli correlati