Ricerca nel sito web

OpenAI svela il modello text-to-video e i risultati sono sorprendenti. Dai un'occhiata tu stesso


Cineasti di Hollywood, potresti voler fare attenzione a Sora.

Fermo immagine da un video generato da Sora. Il suggerimento di OpenAI è stato: "La telecamera è rivolta direttamente agli edifici colorati di Burano, in Italia. Un'adorabile dalmata guarda attraverso una finestra su un edificio al piano terra. Molte persone camminano e vanno in bicicletta lungo le strade del canale di fronte agli edifici".

Open AI dispone già di modelli AI leader di mercato nella generazione di immagini e testo rispettivamente con DALL-E 3 e ChatGPT. Ora l'azienda sta arrivando anche nello spazio di generazione di testo in video, con un modello nuovo di zecca. 

Giovedì, OpenAI ha presentato Sora, il suo modello text-to-video in grado di generare video lunghi fino a un minuto con qualità e dettagli impressionanti, come si vede nel video demo qui sotto:

Secondo OpenAI, Sora può affrontare scene complesse, inclusi personaggi multipli, tipi specifici di movimento e grandi dettagli, grazie alla profonda comprensione del linguaggio, dei suggerimenti e del modo in cui i soggetti esistono nel mondo. 

Guardando diversi video dimostrativi, puoi vedere che OpenAI è riuscita ad affrontare due grandi problemi nello spazio di generazione dei video: continuità e longevità:

I video generati dall'intelligenza artificiale sono spesso discontinui e distorti, rendendo chiaro al pubblico dove finisce e inizia ogni fotogramma. Ad esempio, Runaway AI ha rilasciato a marzo il suo modello text-to-video più avanzato, Gen-2. Come visto di seguito, le clip non sono paragonabili a quelle del modello di OpenAI odierno:

Il modello di OpenAI, d'altra parte, può generare video fluidi, facendo sembrare ogni clip generata come se fosse stata presa da un film prodotto da Hollywood. 

OpenAI afferma che Sora è un modello di diffusione in grado di produrre output di alta qualità utilizzando un'architettura del trasformatore simile ai modelli GPT, così come ricerche passate sui modelli DALL-E e GPT. Oltre a generare video dal testo, Sora può generare video da un'immagine fissa o riempire i fotogrammi mancanti dai video:

Nonostante mostri tutti i suoi progressi, OpenAI affronta anche i punti deboli del modello, sostenendo che a volte può avere difficoltà a "simulare la fisica di una scena complessa e potrebbe non comprendere istanze specifiche di causa ed effetto". Il modello potrebbe anche confondere i dettagli spaziali di un prompt.

Il modello sta diventando disponibile innanzitutto ai membri del team rosso per valutarne i rischi e a un numero selezionato di creativi, come artisti visivi, designer e registi, per raccogliere feedback su come migliorare il modello per soddisfare le loro esigenze. 

Sembra che stiamo entrando in una nuova era in cui le aziende sposteranno l’attenzione sulla ricerca, sullo sviluppo e sul lancio di generatori di testo-video basati sull’intelligenza artificiale. Solo due settimane fa, Google Research ha pubblicato un documento di ricerca su Lumiere, un modello di diffusione da testo a video che può anche creare video altamente realistici. 

Articoli correlati