L’open source non è pronto per l’intelligenza artificiale generativa. Come le parti interessate stanno cambiando insieme questa lampadina
Le licenze open source, già limitate dal software-as-a-service e dal cloud, si adattano ancora peggio ai grandi modelli linguistici dell’intelligenza artificiale. Cosa deve fare un leader open source?
Senza open source non esiste l’intelligenza artificiale. È così semplice. Ma quelle stesse licenze hanno mostrato la loro età: la licenza Gnu General Public License (GPL), la licenza Apache e la licenza pubblica Mozilla non si adattano bene ai servizi software come servizio o cloud. L’intelligenza artificiale pone problemi ancora più grandi. Le licenze open source, con le loro basi di diritto d'autore, non sono adatte ai grandi modelli linguistici (LLM) dell'intelligenza artificiale.
Questa non è nemmeno solo una questione teorica tecno-legale. Si sta già manifestando nei tribunali.
In J. Doe 1 et al. contro GitHub, i querelanti sostengono che Microsoft, OpenAI e GitHub - tramite il loro sistema commerciale basato sull'intelligenza artificiale, Codex di OpenAI e Copilot di GitHub - hanno rubato il loro codice open source. L'azione legale collettiva afferma che il codice "suggerito" dall'intelligenza artificiale spesso consiste in stringhe di codice quasi identiche prelevate dai repository GitHub pubblici, ma senza le necessarie attribuzioni di licenza open source.
Su una questione correlata, due gruppi di scrittori, tra cui George R.R. Martin, Michael Chabon e John Grisham, stanno facendo causa a Microsoft e OpenAI per aver preso il loro lavoro e averlo utilizzato nei loro LLM. Il copyright, il fondamento giuridico dell’open source, è al centro di questo problema.
Ma questo non è semplicemente un problema di Microsoft.
Come ha detto Sean O'Brien, docente di sicurezza informatica alla Yale Law School e fondatore dello Yale Privacy Lab, al mio collega di ZDNET David Gewirtz: "Credo che presto ci sarà un intero sottosettore del trolling che rispecchia i patent troll, ma questa volta attorno a Opere generate dall'intelligenza artificiale. Si crea un ciclo di feedback man mano che sempre più autori utilizzano strumenti basati sull'intelligenza artificiale per distribuire codice con licenze proprietarie. Gli ecosistemi software saranno inquinati da codice proprietario che sarà oggetto di richieste di cessazione e desistenza da parte di aziende intraprendenti.
Altri, come il ricercatore e politico tedesco Felix Reda, sostengono che tutto il codice prodotto dall’intelligenza artificiale è di pubblico dominio.
L'avvocato statunitense Richard Santalesa, membro fondatore del SmartEdgeLaw Group, ha detto a Gewirtz che esistono sia questioni di diritto contrattuale che di diritto d'autore - e non sono la stessa cosa. Santalesa ritiene che le aziende che producono codice generato dall'intelligenza artificiale "come per tutti gli altri loro IP, considereranno i materiali forniti, incluso il codice generato dall'intelligenza artificiale, come di loro proprietà". Inoltre, il codice di pubblico dominio non è la stessa cosa del codice open source.
Allora, cosa bisogna fare? Affermare semplicemente che la tua intelligenza artificiale è open source è un fallimento. Meta, ad esempio, afferma che Llama 2 è open source. Non è.
Come ha chiesto su Twitter Erica Brescia, amministratore delegato di RedPoint, la società di venture capital favorevole all'open source: "Qualcuno può spiegarmi come Meta e Microsoft possono giustificare la definizione di Llama 2 open source se in realtà non utilizza un OSI?" Licenza approvata dall'[Open Source Initiative] o conforme all'OSD [Open Source Definition]? Stanno intenzionalmente sfidando la definizione di OSS [Open Source Software]?"
Ecco la breve spiegazione: Meta utilizza open source come termine di marketing, non legale. Questo utilizzo non avrà più successo una volta che le cause legali si accumuleranno
Il problema specifico di Llama 2 è che impedisce alle aziende estremamente redditizie di utilizzarlo. Secondo Stephen O'Grady, esperto di licenze open source e co-fondatore di RedMonk, il problema è che non funzioneranno in open source. "Immagina se Linux fosse open source a meno che tu non lavori su Facebook,"
Allo stesso tempo, come ha osservato il CEO di OpenUK, Amanda Brock, "Non penso che vedremo in futuro che nessun LLM o alcuna intelligenza artificiale significativa possa essere concessa in licenza come open source, perché la chiave dell'open source è l'Open Definizione della fonte."
E la strada verso quella Definizione è stata lunga e accidentata.
Le prime licenze software gratuite iniziarono all'inizio degli anni '80, quando il programmatore del MIT Lab Richard M. Stallman non riuscì a far sì che una delle prime stampanti laser, la Xerox 9700, producesse messaggi di errore. Il problema? Stallman non poteva leggere o modificare il suo codice sorgente. A quel tempo, questo era uno sviluppo nuovo. Sebbene oggi consideriamo il software proprietario come la soluzione predefinita, allora non lo era.
Pertanto, Stallman creò la GNU General Public License (GPL). Sebbene non sia la prima licenza per software libero (questo onore spetta alla licenza di Berkeley Software Distribution (BSD),), GNU si sarebbe rivelata molto influente. In gran parte, ciò è dovuto al fatto che Linus Torvalds ha scelto di utilizzare la GPLv2 come licenza di Linux.
La GPL si basa su due principi. Innanzitutto, il codice software può essere protetto da copyright. In secondo luogo, chiunque è libero di leggere e modificare il codice purché queste libertà non vengano tolte a nessun altro.
Nel 1985 il software libero stava diventando popolare, ma era anche diventato chiaro che la parola "libero" era troppo ambigua. Dopo che Netscape ha rilasciato il codice sorgente di Mozilla, che è diventato la base del browser web Firefox, diversi luminari del software libero, tra cui Eric S. Raymond, Bruce Perens, Michael Tiemann, Jon "Maddog" Hall e Christine Peterson, hanno coniato la frase open source per descrivere questo tipo di licenza. Nel 1998, Perens e Raymond fondarono l'OSI, che redasse la Open Source Definition (OSD) e la utilizzò come guida generale per definire tutte le licenze open source.
Tutte le licenze open source devono essere conformi all'OSD. Per l'intelligenza artificiale e gli LLM, è molto più facile a dirsi che a farsi.
È vero, ci sono LLM aperti come Falcon, FastChat-T5 e OpenLLaMA. Ma la maggior parte dei LLM contengono informazioni proprietarie, protette da copyright o semplicemente sconosciute di cui i proprietari non ti parleranno. La Electronic Frontier Foundation (EFF) lo dice bene: "Garbage In, Gospel Out".
Abbiamo visto questo problema arrivare da un po'. All'Open Source Europe di Bilbao, in Spagna, il mese scorso, ho parlato con Stefano Maffulli, direttore esecutivo dell'Open Source Initiative (OSI), l'organizzazione che definisce e gestisce le licenze open source. "Il processo è iniziato due anni fa quando è uscito GitHub Copilot," mi ha detto Maffulli. "È stato un momento spartiacque. All'improvviso, il codice che hai scritto come essere umano per gli esseri umani, tutto ciò che abbiamo prodotto e messo su Internet veniva raccolto per l'apprendimento automatico."
Quindi cosa possiamo fare? Maffulli e altri leader dell’open source e dell’intelligenza artificiale stanno lavorando per combinare l’intelligenza artificiale con le licenze open source in modi sensati.
Maffulli ha osservato che combinare l’intelligenza artificiale con le licenze open source è altrettanto difficile, se non più difficile, di quando il diritto d’autore sul software fu applicato per la prima volta al codice sorgente negli anni ’80 (quando furono definiti per la prima volta il software libero e l’open source). I veri programmi di intelligenza artificiale open source, come TensorFlow, PyTorch e Hugging Face, funzionano bene con le licenze vecchio stile. Ma il problema non è il software vecchio stile. È dove software e dati si mescolano che le licenze open source esistenti iniziano a crollare. Nello specifico, è dove tutti i dati e il codice si fondono in artefatti AI/ML (come set di dati, modelli e pesi) che emergono i problemi. "Pertanto", ha affermato Mafulli, "dobbiamo creare una nuova definizione di intelligenza artificiale open source".
Questa deve essere una definizione su cui tutte le parti interessate possano concordare e con cui possano lavorare. Il software libero e l’open source non sono più una questione riservata solo agli sviluppatori. Gli obiettivi dei programmatori e degli avvocati esperti di open source non sono gli stessi di quelli delle aziende di intelligenza artificiale. Per risolvere questo problema, Maffulli, insieme a Google, Microsoft, GitHub, Open Forum Europe, Creative Commons, Wikimedia Foundation, Hugging Face, GitHub, Linux Foundation, ACLU Mozilla e Internet Archive, stanno lavorando a una bozza per definire un approccio comune comprensione dell’intelligenza artificiale open source. In altre parole, tutti i giocatori dell’IA stanno lavorando alla definizione.
Se tutto andrà bene, possiamo aspettarci di vedere i frutti del loro lavoro già questo mese. E anche se questa sarà solo la prima bozza della definizione di AI Open Source, mi aspetto che venga finalizzata il più rapidamente possibile. Tutti i soggetti coinvolti sanno che l’intelligenza artificiale sta avanzando rapidamente e prima avremo un framework open source attorno ad essa, meglio sarà.