Google presenta la IA generativa Lumiere para crear imágenes y vídeos más realistas a partir de texto
Google ha presentado Lumiere, lo último en IA generativa realista de texto a imagen y vídeo. El software mejora enormemente el movimiento utilizando un enfoque novedoso para la generación de fotogramas de vídeo que crea todos los fotogramas en una sola pasada para mitigar los errores de movimiento.
La IA generativa de imágenes crea imágenes a partir de texto. Una clave que lo permite es la enorme cantidad de imágenes y vídeos en línea disponibles para el entrenamiento. Otra es el desarrollo de métodos para asociar todas las palabras de un idioma entre sí mediante vectores. Por lo tanto, la IA puede entender como un par de palabras, o en una frase, "yo soy" es más probable que "yo unilateralmente". La IA de creación de imágenes, como la Difusión Estable, asocia palabras con imágenes de objetos. Dicha IA entiende que las palabras "residencia real" están más asociadas a una imagen de "castillo" que a una imagen de "casa".
La IA de vídeo generativa amplía la IA de imagen para crear vídeos a partir de texto. Los competidores de Lumiere crean primero los fotogramas clave y después los fotogramas intermedios. Esto es como si un maestro de la animación dibujara las imágenes del principio y el final de un tiro a canasta, y luego hiciera que un ayudante dibujara las imágenes intermedias. El problema es que a menudo se producen errores de movimiento porque las imágenes intermedias no se dibujan correctamente, por lo que Lumiere evita esto creando todos los fotogramas de vídeo sin fotogramas clave. Además, Lumiere está entrenado para saber qué aspecto tienen los objetos en movimiento en distintos tamaños de imagen, por lo que sus vídeos tienen un aspecto superior.
Técnicamente, Lumiere utiliza modelos probabilísticos de difusión para generar imágenes acoplados a una U-Net Espacio-Tiempo, una arquitectura de U-net con escalado temporal hacia arriba y hacia abajo más bloques de atención añadidos al escalado habitual de resolución de imagen. El escalado descendente temporal simultáneo a la resolución reduce significativamente la carga de trabajo computacional, mientras que el escalado ascendente acoplado a un modelo de superresolución espacial con atención temporal genera el resultado de alta resolución. Aún así, la segmentación de los fotogramas de la imagen es necesaria debido a las limitaciones de memoria, por lo que se utiliza la multidifusión a través de los límites superpuestos de los segmentos de fotogramas para ayudar a mitigar los artefactos de movimiento temporal.
Lumiere puede acoplarse con otras IA para crear una gama más amplia de salida. Esto incluye:
- Cinemagraphs - se anima una sección de una imagen
- Inpainting - un objeto de un vídeo se sustituye por otro
- Generación estilizada - se recrea la apariencia en otro estilo artístico
- Imagen a vídeo - se anima una imagen deseada
- Vídeo a vídeo - los vídeos se recrean en otro estilo artístico
La duración del vídeo está limitada a 5 segundos, mientras que la posibilidad de crear transiciones de vídeo y múltiples ángulos de cámara es inexistente. Los lectores interesados en experimentar con la IA generativa en sus ordenadores de sobremesa deberían adquirir una tarjeta de vídeo potente(como ésta de Amazon) para obtener el mejor rendimiento durante el entrenamiento.
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck