Uno studio rileva documenti di ricerca generati dall'intelligenza artificiale su Google Scholar: perché sono importanti
Fai attenzione a cosa citi se utilizzi il popolare motore di ricerca Google Scholar.
A questo punto, la maggior parte degli utenti di chatbot ha accettato la possibilità che gli strumenti di intelligenza artificiale (AI) generino allucinazioni in quasi tutti gli scenari. Nonostante gli sforzi dei rilevatori di contenuti basati sull’intelligenza artificiale, dei fact-checker e dei modelli LLM (Large Language Models) sempre più sofisticati, nessuno sviluppatore ha ancora trovato una soluzione a questo problema.
Nel frattempo, le conseguenze della disinformazione non fanno che aumentare: le persone utilizzano strumenti di intelligenza artificiale generativa (gen AI) come ChatGPT per creare ricerche false.
Un recente studio pubblicato sulla Misinformation Review della Harvard Kennedy School ha rilevato 139 articoli su Google Scholar, un motore di ricerca per la letteratura accademica, che sembrano essere generati dall'intelligenza artificiale. I ricercatori hanno trovato la maggior parte degli articoli "discutibili" in riviste non indicizzate (non verificate), sebbene 19 di essi siano stati trovati in riviste indicizzate e pubblicazioni affermate. Altri 19 sono apparsi nei database universitari, apparentemente scritti da studenti.
Ancora più preoccupante è il contenuto dei documenti. Il 57% degli studi falsi riguardava argomenti come la salute, la tecnologia computazionale e l’ambiente, aree che secondo i ricercatori sono rilevanti e potrebbero influenzare lo sviluppo delle politiche.
Dopo aver analizzato i documenti, i ricercatori li hanno identificati come probabilmente generati dall'intelligenza artificiale a causa della loro inclusione di "almeno una delle due frasi comuni restituite da agenti conversazionali che utilizzano modelli linguistici di grandi dimensioni (LLM) come ChatGPT di OpenAI". Il team ha quindi utilizzato Ricerca Google per scoprire dove era possibile accedere ai documenti, individuandone più copie in database, archivi, repository e sui social media.
"Il rilascio pubblico di ChatGPT nel 2022, insieme al modo in cui funziona Google Scholar, ha aumentato la probabilità che i non addetti ai lavori (ad esempio, media, politici, pazienti, studenti) si imbattano in documenti discutibili (o addirittura interamente fabbricati da GPT) e altri documenti problematici risultati della ricerca", spiega lo studio.
I ricercatori dietro lo studio hanno notato che il loro non è il primo elenco di documenti accademici sospettati di essere generati dall'intelligenza artificiale e che i documenti vengono "costantemente aggiunti" a questi.
Quindi quali rischi comportano questi studi falsi quando si è su Internet?
Sebbene la propaganda e gli studi frettolosi o falsificati non siano una novità, la generazione di intelligenza artificiale rende questo contenuto esponenzialmente più facile da creare. "L'abbondanza di 'studi' fabbricati che penetrano in tutte le aree dell'infrastruttura di ricerca minaccia di sopraffare il sistema di comunicazione accademica e di mettere a repentaglio l'integrità della documentazione scientifica", spiegano i ricercatori nelle loro scoperte. Hanno continuato notando che è preoccupante che qualcuno possa “ingannevolmente” creare “contenuti dall’aspetto scientifico convincente” utilizzando l’intelligenza artificiale e ottimizzarli per posizionarsi sui motori di ricerca più popolari come Google Scholar.
Ad aprile, 404 Media ha trovato prove simili di libri e altro materiale interamente fabbricati dall'intelligenza artificiale su Google Libri e Google Scholar cercando la frase "A partire dal mio ultimo aggiornamento delle conoscenze", che si trova comunemente nelle risposte ChatGPT a causa della sua precedentemente limitata set di dati. Ora che la versione gratuita di ChatGPT consente la navigazione web e può accedere a informazioni in tempo reale, indicatori come questo potrebbero essere meno frequenti o scomparire del tutto, rendendo più difficile individuare i testi generati dall'intelligenza artificiale.
Sebbene Google Scholar disponga di una maggioranza di letteratura di qualità, "manca della trasparenza e dell'aderenza agli standard che solitamente caratterizzano i database di citazioni", spiega lo studio. I ricercatori notano che, come Ricerca Google, Scholar utilizza crawler automatizzati, il che significa che "i criteri di inclusione si basano principalmente su standard tecnici, consentendo a qualsiasi singolo autore - con o senza affiliazione scientifica - di caricare articoli". Inoltre, gli utenti non possono filtrare i risultati in base a parametri come il tipo di materiale, lo stato di pubblicazione o se sono stati sottoposti a revisione paritaria.
Google Scholar è facilmente accessibile e molto popolare. Secondo SimilarWeb, il motore di ricerca ha avuto oltre 111 milioni di visite il mese scorso, posizionandolo appena sopra i database accademici come ResearchGate.net. Con così tanti utenti che si rivolgono a Scholar, probabilmente sulla base della fiducia nel marchio di tutti gli altri prodotti Google che utilizzano quotidianamente, le probabilità che citino studi falsi non fanno che aumentare.
La differenza più potente tra le allucinazioni dei chatbot basati sull’intelligenza artificiale e gli studi completamente falsificati è il contesto. Se gli utenti che interrogano ChatGPT sanno di aspettarsi informazioni non vere, possono prendere le risposte di ChatGPT con le pinze e ricontrollare le sue affermazioni. Ma se il testo generato dall’intelligenza artificiale viene presentato come una ricerca accademica controllata condotta da esseri umani e basata su un database di fonti popolari, gli utenti hanno poche ragioni o mezzi per verificare che ciò che stanno leggendo sia reale.