Genie 2 DeepMind: l’alba dei mondi 3D generati dall’intelligenza artificiale

Originariamente pubblicato su HackerNoon
Scritto da Giorgio Fazio, contributing writer su AI, sound e cultura del futuro.

Genie 2 non si limita a generare immagini. Genera possibilità spaziali: un assaggio di come potrebbero essere i mondi nativi dell’AI.
Giorgio Fazio

DeepMind, il braccio di ricerca sull’intelligenza artificiale di Google, ha presentato Genie 2, un modello AI in grado di generare infiniti ambienti 3D interattivi partendo da una sola immagine o descrizione testuale. Considerato l’evoluzione del modello originale Genie, Genie 2 rappresenta un enorme salto in avanti nella creazione di contenuti guidata dall’intelligenza artificiale, simulando mondi tridimensionali immersivi, interattivi e visivamente ricchi. Questo articolo approfondisce le innovazioni, le implicazioni e le sfide poste da questa tecnologia rivoluzionaria.

Una vasta varietà di mondi 3D complessi

DeepMind descrive Genie 2 come un sistema capace di produrre “una vasta diversità di mondi 3D ricchi”. Per esempio, un utente può semplicemente scrivere “un robot umanoide carino nel bosco” e il modello genera una scena interattiva in cui il robot può saltare, camminare o nuotare usando i tasti della tastiera.

Il modello non si limita a creare immagini statiche: simula la fisica degli oggetti, i riflessi, l’illuminazione e persino il comportamento dei personaggi non giocanti (NPC). Il post ufficiale di DeepMind su Genie 2 sottolinea la sua versatilità:

“Grazie alle capacità di generalizzazione fuori-distribuzione di Genie 2, concept art e disegni possono essere trasformati in ambienti completamente interattivi. Utilizzando Genie 2 per creare ambienti ricchi e diversificati, i nostri ricercatori possono generare task di valutazione che gli agenti non hanno mai visto durante l’addestramento.”
DeepMind

Questa capacità di creare scenari totalmente nuovi evidenzia il potenziale di Genie 2 come strumento di prototipazione per creativi e ambiente di test per agenti AI, offrendo ambienti unici, diversi dai dataset di training tradizionali.

La tecnologia: dal testo a mondi immersivi

Genie 2 rappresenta un progresso notevole nei modelli di simulazione del mondo. Addestrato su dataset video, colma il divario tra computer vision, modelli generativi e simulazioni fisiche. Tuttavia, come molti modelli avanzati, Genie 2 solleva interrogativi sulla provenienza e legalità dei dati di addestramento.

DeepMind non ha fornito dettagli specifici sulle fonti utilizzate. Alcuni ipotizzano che possa aver sfruttato la vasta libreria di contenuti di YouTube, vista la sua appartenenza a Google. Questo solleva questioni legate alla proprietà intellettuale (IP), soprattutto considerando che molti video potrebbero provenire da videogiochi protetti da copyright.

In un esempio controverso, un’indagine di Wired ha sollevato una domanda cruciale:

“Se un modello AI impara da opere protette da copyright, il suo output costituisce una violazione, o rientra nel fair use?”
WIRED
2024

Questa rimane un’area grigia nello sviluppo dell’intelligenza artificiale e potrebbe rappresentare un ostacolo importante per DeepMind man mano che la tecnologia matura.

Genie 2 e i concorrenti

I modelli di simulazione del mondo non sono una novità assoluta. Aziende come World Labs e Decart stanno sviluppando da tempo sistemi simili. Per esempio, il simulatore Oasis di Decart, ispirato a Minecraft, crea livelli interattivi a bassa risoluzione ma ha difficoltà a mantenere coerenza e dettaglio.

Rispetto a questi, Genie 2 si distingue per la capacità di:

  • Mantenere la memoria della scena: A differenza di Oasis, Genie 2 ricorda elementi nascosti o fuori campo, permettendo di riscoprirli in modo fluido quando tornano visibili.

  • Generare ambienti interattivi di alta qualità: Molte delle sue simulazioni raggiungono un livello di dettaglio paragonabile ai videogiochi AAA.

Applicazioni e limiti

Nonostante il suo enorme potenziale, Genie 2 presenta alcune limitazioni pratiche. La maggior parte delle scene generate dura solo tra i 10 e i 20 secondi, con alcune che si estendono fino a un minuto. Questo vincolo temporale ne limita l’uso per lo sviluppo di giochi completi, ma lo rende perfetto per la prototipazione rapida.

DeepMind immagina Genie 2 come uno strumento creativo e di ricerca, più che un motore di gioco commerciale. Come afferma l’azienda:

“Genie 2 risponde in modo intelligente alle azioni eseguite tramite la tastiera, identificando il personaggio e muovendolo correttamente. Il nostro modello, ad esempio, capisce che i tasti direzionali devono muovere un robot e non alberi o nuvole.”
DeepMind

I ricercatori possono utilizzare Genie 2 per simulare ambienti in cui testare agenti AI in scenari originali. Può anche servire come ponte tra concept art e game design, accelerando il flusso di lavoro per sviluppatori e artisti.

Implicazioni per creativi e sfide sull’IP

Per i creativi, le implicazioni sono enormi. Artisti, designer e sviluppatori di videogiochi potrebbero usare Genie 2 per trasformare uno sketch in un mondo 3D interattivo in pochi secondi. Ma questo apre anche questioni etiche e professionali.

L’industria del gaming, ad esempio, sta già facendo ampio uso di strumenti AI per automatizzare processi. Una recente indagine di Wired ha mostrato come aziende come Activision Blizzard abbiano utilizzato tool AI per abbattere i costi, spesso a scapito dei lavoratori.

Il potenziale per un uso distorto è evidente. Strumenti come Genie 2 sostituiranno la creatività umana? O la completeranno, occupandosi dei compiti più ripetitivi? La risposta dipenderà da come le aziende sceglieranno di implementare queste tecnologie.

Il futuro della simulazione AI

Genie 2 rientra in una strategia più ampia. Nel 2022, DeepMind ha assunto Tim Brooks, ex ricercatore di OpenAI esperto in generazione video, e Tim Rocktäschel, conosciuto per il suo lavoro sull’open-endedness nel gaming AI, proveniente da Meta.

Queste assunzioni strategiche confermano l’impegno di Google nel rendere i simulatori di mondi un pilastro dello sviluppo futuro dell’intelligenza artificiale.

Anche il mondo accademico sta mostrando crescente interesse. Un recente paper di Leike et al. (2023) ha analizzato il ruolo dei modelli di mondo nella valutazione degli agenti AI, notando:

“I modelli generativi di mondo offrono un’opportunità unica per testare agenti in ambienti non vincolati dalla fisica reale o da dataset esistenti. Permettono ai ricercatori di esplorare scenari inediti e addestrare agenti più adattabili.”
Leike et al., 2023, arXiv

Questo si allinea con l’obiettivo dichiarato da DeepMind: utilizzare Genie 2 per creare ambienti di valutazione che gli agenti non possano anticipare durante l’addestramento.

Conclusione

Genie 2 dimostra il crescente potenziale dell’AI generativa nel ridefinire il nostro rapporto con gli ambienti digitali. Anche se non è ancora pronto a rivoluzionare il game design, il suo ruolo come strumento creativo e di ricerca è già significativo.

Permettendo una prototipazione rapida e ampliando le possibilità di test per l’intelligenza artificiale, Genie 2 apre scenari entusiasmanti ma solleva anche discussioni cruciali su etica, copyright e futuro del lavoro.

Con il crescente interesse di accademici e industrie per i modelli di mondo, una cosa è certa: Genie 2 è solo l’inizio. Se ispirerà nuove forme di creatività o sconvolgerà interi settori, dipenderà da come verrà utilizzato e regolamentato nei prossimi anni.

Leave a Reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *