Los investigadores de Google presentan Genie, una IA que sabe crear escenas de minijuegos a partir de imágenes de ejemplo

La IA Genie de Google puede crear una escena jugable de un minijuego a partir de una sola imagen de entrada. (Fuente: Imagen generada por la IA Dall-E 3)

Los investigadores de Google DeepMind han presentado Genie, la primera IA generativa de entornos interactivos del mundo. Esta IA puede observar una imagen de un ejemplo de juego de plataformas en 2D y, a continuación, crear una escena jugable en miniatura. La IA no necesita entradas adicionales para hacerlo.

David Chien (traducido por Ninh Duy), Publicado 03/06/2024 🇺🇸 🇨🇳 ...

AI Gaming

Investigadores de Google DeepMind han presentado Genie, la primera IA generativa de entornos interactivos del mundo. La IA puede crear una escena jugable tras observar una imagen de un juego de ejemplo. Esto abre la puerta a que los jugadores puedan crear juegos jugables sin necesidad de programar.

Genie se entrena en la jugabilidad de un juego de plataformas en 2D mirando 30.000 horas de vídeos (6,8 millones de clips de 16 segundos). La IA simplifica lo que ve representando las imágenes de vídeo y las acciones que ve como conjuntos de números, de forma muy parecida a como un humano utiliza las palabras para describir una escena de juego.

Una vez entrenada, un solo ejemplo de una escena de juego es todo lo que Genie necesita para crear una miniescena jugable. Entre bastidores, la IA puede ampliar la imagen de partida utilizando sofisticados métodos para generar las partes que faltan de una imagen, de modo que Genie puede dibujar nuevas partes del mundo del juego a medida que el jugador avanza. Para ello, hace referencia a los millones de clips que ha visto mientras dota al personaje de acciones jugables como correr o saltar.

Es importante destacar que Genie aprende las acciones observando el juego, no haciendo que los humanos se lo indiquen. Así, cuando hay un puente con un hueco, la IA sabe por lo que ha visto que es probable que un personaje tenga que saltar por encima del hueco y lo hace cuando el jugador humano pulsa el botón arriba de un mando.

Todo esto requiere una enorme potencia de cálculo para el entrenamiento (miles de teraflops a lo largo de semanas en ordenadores con cientos de chips) y el juego, que sólo puede realizar a una lentísima velocidad de 1 fotograma por segundo.

Para los más técnicos, los fotogramas de vídeo y las acciones latentes inferidas se tokenizan utilizando van den Oord's VQ-VAE. Las acciones latentes especificadas por el usuario junto con los fotogramas de vídeo tokenizados se introducen en el modelo dinámico utilizando el transformador MaskGIT de Chang para generar tokens de fotogramas iterativos que se utilizan para generar vídeos de salida utilizando MaskViT de Gupta. Los transformadores ST adoptados de Xu para incluir la atención temporal además de la espacial con el fin de mejorar las predicciones y reducir los requisitos de memoria.

Así que, hasta que llegue el día en que los ordenadores sean lo suficientemente potentes como para crear juegos de plataformas en 2D completamente solos, disfrute de los juegos de plataformas clásicos con una videoconsola portátil(como ésta de Amazon).