Meta afferma che il suo Movie Gen segna un "vero" progresso nella generazione di video AI
Nonostante i punteggi elevati rispetto alle tecnologie di intelligenza artificiale concorrenti, sono comunque necessari esseri umani per verificare se il video è effettivamente buono o meno.
Quanto è falso o reale il crescente flusso di video prodotti dall'intelligenza artificiale (AI)?
Si scopre che esiste una misura quantitativa per questo - o quasi. Gli esseri umani devono ancora decidere, in base alla loro percezione umana, se un video è buono o meno.
Mark Zuckerberg, proprietario di Meta Platforms, ha annunciato venerdì un nuovo modello di intelligenza artificiale chiamato Movie Gen in grado di generare video HD (risoluzione 1080p) da un messaggio di testo. L'azienda afferma che questi video sono in media più "realistici" rispetto ai video generati dalla tecnologia concorrente (come il modello text-to-video Sora di OpenAI).
Può anche generare audio sincronizzato, personalizzare il video per mostrare il volto di una persona e quindi modificare automaticamente il video con solo un messaggio di testo, ad esempio "vesti i pinguini con abiti vittoriani" per mascherare i pinguini sullo schermo.
Nel documento di accompagnamento, "Movie Gen: A Cast of Media Foundation Models", i ricercatori di Meta AI descrivono come hanno fatto valutare agli esseri umani il realismo dei video generati dall'intelligenza artificiale:
Realness: This measures which of the videos being compared most closely resembles a real video. For fantastical prompts that are out of the training set distribution (e.g., depicting fantasy creatures or surreal scenes), we define realness as mimicking a clip from a movie following a realistic art-style. We additionally ask the evaluators to select a reason behind their choice i.e., "subject appearance being more realistic" or "motion being more realistic".
C'è anche un post sul blog associato.
I test sugli esseri umani identificano un punteggio di vittoria/sconfitta per Movie Gen rispetto a Sora e altri tre importanti modelli di intelligenza artificiale da testo a video, Runway Gen3, Lumalabs e Kling1.5.
Gli autori notano che non è ancora possibile ottenere buoni confronti in modo automatizzato. Inoltre, "la valutazione della realtà e dell'estetica dipende fortemente dalla percezione e dalle preferenze umane", scrivono.
Non solo in termini di realismo, ma anche in termini di qualità del movimento in un video, se salta o confonde parti di un'azione e quanto è fedele il video al messaggio di testo inserito, sono cose che non puoi proprio automatizzare, affermano.
"Troviamo che le metriche automatizzate esistenti faticano a fornire risultati affidabili, rafforzando la necessità di una valutazione umana."
Il benchmark misura i modi in cui "gli esseri umani preferiscono i risultati del nostro modello rispetto ai modelli industriali concorrenti", riferisce il documento, risultando in un "tasso di vittoria netto" in termini percentuali.
La percentuale di vittoria media contro Sora, riferiscono, è dell'11,62% delle volte. La percentuale di vittorie contro gli altri è sostanzialmente più alta.
"Questi significativi guadagni netti dimostrano la capacità di Movie Gen Video di simulare il mondo reale con video generati che rispettano la fisica, con movimenti ragionevoli in termini di grandezza ma coerenti e senza distorsioni."
Offrono alcune schermate di esempio di video direttamente in contrasto con Sora. Secondo gli autori, "OpenAI Sora può tendere a generare video meno realistici (ad esempio, il canguro da cartone animato nella seconda riga) a cui possono mancare i dettagli di movimento descritti nel messaggio di testo (ad esempio, il robot che non cammina in basso riga)."
Gli autori hanno costruito il modello di intelligenza artificiale per Movie Gen da quello che chiamano un "cast di modelli di base".
Nella fase di addestramento, immagini e video provenienti da una combinazione di set di dati pubblici e autorizzati vengono compressi finché il modello non impara a riprodurre in modo efficiente i pixel dei dati, riferiscono gli autori. Come lo chiamano, "Codifichiamo i video e le immagini dello spazio pixel RGB in uno spazio latente compresso spazio-temporale appreso utilizzando un codificatore automatico temporale (TAE) e impariamo a generare video in questo spazio latente".
Meta ha utilizzato più passaggi non solo per generare video ma anche per sincronizzare audio, personalizzazione e funzionalità di editing video.
La generazione del video viene quindi "condizionata" dagli input di testo per fare in modo che il modello sia in grado di produrre video in linea con le istruzioni di testo.
Le parti si sommano a un modello con 30 miliardi di parametri, un numero non enorme per gli standard di formazione odierni.
Una seconda rete neurale, chiamata “Movie Gen Audio”, produce audio ad alta fedeltà, ma per gli effetti sonori e la musica, non per il parlato. Si basa su un approccio esistente chiamato “trasformatore di diffusione”, con 13 miliardi di parametri.
Tutto ciò richiede molta potenza di calcolo: "6.144 GPU H100, ciascuna con TDP da 700 W e con HBM3 da 80 GB, utilizzando la piattaforma server AI Grand Teton di Meta."
Generare video non è tutto ciò che fa Movie Gen. In una fase successiva, gli autori sottopongono la modella anche a una formazione aggiuntiva per creare video "personalizzati", in cui il volto di un individuo può essere costretto a comparire nel film.
Aggiungono anche un componente finale, la possibilità di modificare i video con solo un messaggio di testo. Il problema che gli autori hanno dovuto affrontare è che "i modelli di editing video sono ostacolati dalla scarsità di dati di editing video supervisionati", quindi non ci sono abbastanza esempi per fornire il modello di intelligenza artificiale per addestrarlo.
Per ovviare a questo problema, il team è tornato al modello AI di Movie Gen e lo ha modificato in diversi passaggi. Innanzitutto, utilizzano i dati dell'editing delle immagini per simulare ciò che è coinvolto nella modifica dei fotogrammi del video. Lo hanno inserito nell'addestramento del modello contemporaneamente all'addestramento originale da testo a video in modo che il modello AI sviluppi la capacità di coordinare l'editing di singoli fotogrammi con più fotogrammi di video.
Nella parte successiva, gli autori forniscono al modello un video, una didascalia testuale, ad esempio "una persona che cammina per strada" e un video modificato, e addestrano il modello a produrre le istruzioni che porterebbero alla modifica rispetto al video originale. al video modificato. In altre parole, costringono il modello AI ad associare le istruzioni ai video modificati.
Per testare la capacità di editing video, gli autori compilano un nuovo test benchmark basato su 51.000 video raccolti dai ricercatori di Meta. Hanno anche assunto degli addetti al crowdfunding per fornire istruzioni di editing.
Per valutare l'editing dei video, il team Meta ha chiesto a revisori umani di valutare quale video fosse migliore: uno creato con il loro modello di intelligenza artificiale o con lo stato dell'arte esistente. Hanno anche utilizzato misure automatizzate per confrontare i video prima e dopo l'attività.
"I valutatori umani preferiscono Movie Gen Edit su tutte le linee di base con un margine significativo", scrivono gli autori.
In tutti questi passaggi, gli autori sono all’avanguardia nel coordinare la dimensione dei modelli di intelligenza artificiale, i dati e la quantità di elaborazione utilizzata. "Abbiamo scoperto che il ridimensionamento dei dati di addestramento, del calcolo e dei parametri del modello di un semplice modello basato su Transformer addestrato con Flow Matching produce modelli generativi di alta qualità per video o audio."
Tuttavia, gli autori ammettono che le valutazioni umane hanno le loro insidie. "Definire criteri oggettivi per valutare le generazioni di modelli utilizzando valutazioni umane rimane impegnativo e quindi le valutazioni umane possono essere influenzate da una serie di altri fattori come pregiudizi personali, background, ecc."
Il documento non contiene alcun suggerimento su come affrontare questi pregiudizi umani. Ma Meta nota che rilasceranno un test di riferimento per l'utilizzo da parte di altri, senza rivelare un periodo di tempo:
In order to thoroughly evaluate video generations, we propose and hope to release a benchmark, Movie Gen Video Bench, which consists of 1000 prompts that cover all the different testing aspects summarized above. Our benchmark is more than 3⇥ larger than the prompt sets used in prior work.
La società si è anche impegnata a offrire, a un certo punto, i suoi video per l'ispezione pubblica: "Per consentire un confronto equo e semplice con Movie Gen Video per lavori futuri, speriamo di rilasciare pubblicamente i nostri video generati non selezionati per il set di prompt Movie Gen Video Bench ."
Secondo Meta, il modello Movie Gen non è ancora stato implementato. Nella conclusione del loro articolo, gli autori scrivono che tutti i modelli di intelligenza artificiale "necessitano di molteplici miglioramenti prima di essere implementati". Ad esempio, i video generati dal modello "soffrono ancora di problemi, come artefatti nei video generati o modificati su geometrie complesse, manipolazione di oggetti, fisica degli oggetti, trasformazioni di stato, ecc." L'audio "a volte non è sincronizzato quando i movimenti sono densi" come un video di tip tap.
Nonostante queste limitazioni, Movie Gen implica un giorno un percorso verso una suite completa di creazione e editing di video e persino la personalizzazione di un podcast video con la propria somiglianza.