Meta fa alcune grandi oscillazioni dell'IA al Meta Connect 2024
Le nuove funzionalità AI di Meta portano in primo piano una combinazione di editing di immagini, interazione vocale e traduzione in tempo reale. Scopri come Llama 3.2 sta rimodellando l'esperienza utente nell'ecosistema di app di Meta.
Mark Zuckerberg è salito sul palco del Meta Connect 2024 e si è distinto nelle categorie VR/AR e AI. C'è molta mescolanza di queste tecnologie, in particolare nella linea di occhiali Meta discussa altrove su ZDNET.
In questo articolo, tuttavia, approfondiremo diversi annunci potenti e impressionanti relativi agli sforzi di intelligenza artificiale dell'azienda.
Modello linguistico multimodale di grandi dimensioni
Zuckerberg ha annunciato la disponibilità di Llama 3.2, che aggiunge funzionalità multimodali. In particolare, il modello può comprendere le immagini.
Ha confrontato i modelli linguistici di grandi dimensioni Llama 3.2 di Meta con altri LLM, affermando che Meta "si differenzia in questa categoria offrendo non solo modelli all'avanguardia, ma accesso illimitato a tali modelli gratuitamente e integrandosi facilmente nei nostri diversi prodotti e app".
Meta AI è l'assistente AI di Meta, ora basato su Llama 3.2. Zuckerberg ha affermato che Meta è sulla buona strada per diventare l'assistente AI più utilizzato a livello globale, con quasi 500 milioni di utenti attivi mensili.
Per dimostrare la comprensione delle immagini da parte del modello, Zuckerberg ha aperto un'immagine su un dispositivo mobile utilizzando la funzionalità di modifica delle immagini dell'azienda. Meta AI è stata in grado di cambiare l'immagine, modificando una maglietta per renderla tie-dye o aggiungendo un casco, il tutto in risposta a semplici istruzioni di testo.
Meta AI con voce
L'assistente AI di Meta è ora in grado di tenere conversazioni vocali con te dalle app di Meta. Ho utilizzato una funzionalità simile in ChatGPT e l'ho trovata utile quando due o più persone hanno bisogno di ascoltare la risposta a una domanda.
Zuckerberg sostiene che l'interazione vocale basata sull'intelligenza artificiale sarà più importante dei chatbot testuali, e io sono d'accordo, con un avvertimento. Arrivare all'interazione vocale deve essere facile. Ad esempio, per porre una domanda ad Alexa, devi semplicemente parlare nella stanza. Ma per porre una domanda a ChatGPT sull'iPhone, devi sbloccare il telefono, accedere all'app ChatGPT e quindi abilitare la funzione.
Fino a quando Meta non avrà dispositivi in grado di ascoltare in modo naturale il parlato, temo che anche gli assistenti vocali più capaci saranno limitati da alcuni inconvenienti.
Puoi anche dare al tuo assistente AI una voce da celebrità. Scegli tra John Cena, Judi Dench, Kristen Bell, Keegan-Michael Key e Awkwafina. La conversazione vocale naturale sarà disponibile su Instagram, WhatsApp e Messenger Facebook e verrà lanciata oggi.
Meta AI Studio
Successivamente ci sono alcune funzionalità che Meta ha aggiunto al suo strumento di creazione di chatbot AI Studio. AI Studio ti consente di creare un personaggio (un'IA basata sui tuoi interessi o un'IA che "è un'estensione di te"). In sostanza, puoi creare un chatbot che rispecchi il tuo stile di conversazione.
Ma ora Meta si sta tuffando nel regno dei deepfake della Uncanny Valley.
AI Studio, fino a questo annuncio, conteneva un'interfaccia basata su testo. Ma Meta sta rilasciando una versione "più naturale, incarnata, interattiva". E quando si parla di "incarnato", non stanno scherzando.
Nella demo, Zuckerberg ha interagito con un chatbot modellato sul creatore Don Allen Stevenson III. Questa interazione sembrava essere un video "dal vivo" di Stevenson, che tracciava completamente il movimento della testa e le animazioni delle labbra. Fondamentalmente, poteva fare una domanda a Robot Don e sembrava che il vero ragazzo stesse rispondendo.
Potente, bizzarro e snervante. Inoltre, la possibilità di creare chatbot dannosi utilizzando i volti di altre persone sembra una possibilità concreta.
Traduzione dell'IA
Meta sembra avere la sincronizzazione labiale artificiale e i movimenti facciali vincolati. Hanno raggiunto un punto in cui possono far muovere il volto di una persona reale e pronunciare parole generate.
Meta ha esteso questa capacità alla traduzione. Ora offrono il doppiaggio video automatico su bobine, in inglese e spagnolo. Questa funzionalità significa che puoi registrare un Reel in spagnolo e il social lo riprodurrà in inglese e sembrerà che tu stia parlando inglese. Oppure puoi registrare in inglese e verrà riprodotto in spagnolo, come se stessi parlando in spagnolo.
Nell'esempio sopra, il creatore Ivan Acuña ha parlato in spagnolo, ma il doppiaggio è tornato in inglese. Come nell'esempio precedente, il video era quasi perfetto e sembrava che Acuña fosse stato registrato originariamente parlando inglese.
Lama 3.2
Zuckerberg è tornato per un'altra immersione nel modello Llama 3.2. Ha affermato che la natura multimodale del modello ha aumentato considerevolmente il conteggio dei parametri.
Un'altra parte interessante dell'annuncio riguardava i modelli 1B e 3B, molto più piccoli, ottimizzati per funzionare sul dispositivo. Questo impegno consentirà agli sviluppatori di creare modelli più sicuri e specializzati per app personalizzate, che risiedono direttamente nell'app.
Entrambi questi modelli sono open source e Zuckerberg promuoveva l'idea che Llama stesse diventando "il Linux del settore dell'intelligenza artificiale".
Infine, sono state annunciate molte altre funzionalità AI per gli occhiali AI di Meta. Abbiamo un altro articolo che approfondisce queste funzionalità in dettaglio.