CheckMag | Cómo alojar su propio generador de imágenes de IA con Invoke AI y Stable Diffusion

Invoke AI es una forma sencilla de ejecutar una serie de modelos de generación de imágenes en su propio hardware (Fuente de la imagen: Invoke AI)

Existen varias herramientas que le permiten aprovechar su propio generador de imágenes de IA sin depender de servicios en la nube, que a menudo son de pago y vienen con toda una serie de limitaciones. Sin embargo, Invoke AI le permite ejecutar una serie de modelos y herramientas, incluida la difusión estable, lo que le permite generar prácticamente cualquier cosa que se le ocurra. Se pueden obtener resultados decentes con un hardware modesto y una GPU relativamente reciente. He aquí cómo empezar.

David Devey, 👁 David Devey (traducido por Ninh Duy), Publicado 02/01/2025 🇺🇸 🇫🇷 ...

Hay un montón de razones por las que podría querer alojar su propio generador de imágenes AI. Tanto si quiere evitar las marcas de agua y la publicidad, generar múltiples imágenes sin la suscripción, o llevar su generación de imágenes más allá de lo permitido éticamente por el servicio, alojar su propia instancia y utilizar los datos de entrenamiento de una empresa como Stable Diffusion le permite conservar el control definitivo sobre lo que genere su IA.

Para empezar, tiene que descargar la edición comunitaria de Invoke AI de aquí. En Windows, casi todo el proceso de instalación está automatizado, ya que se instalan todas las dependencias necesarias. Sin embargo, este puede no ser el caso con las versiones para Linux y macOS, por lo que su kilometraje puede variar. Para nuestros experimentos, utilizamos una máquina virtual con Windows 11, con 8 núcleos de un Ryzen 9 5950 asignados, una RTX 4070 (disponible en Amazon) pasada a la VM y 24 GB de RAM ejecutándose en una SSD NVMe de 1 TB. Las GPU de AMD son compatibles, pero sólo con Linux.

Una vez que haya pasado por el proceso de instalación, inicie Invoke AI para generar los archivos de configuración y luego apáguelo. La razón de esto es que se recomienda hacer un par de cambios en varias partes del sistema para activar el "modo Low-VRAM".

Aunque Invoke AI no especifica lo que constituye VRAM baja, los 12 GB de RAM de la RTX 4070 probablemente no van a hacer funcionar un modelo de 24 GB. Para ello, tiene que editar el archivo invokeai.yaml que se encuentra en la carpeta de instalación con un editor de texto y añadir la línea

enable_partial_loading: true

Una vez editado, los usuarios de Windows que utilicen GPU Nvidia deberán establecer CUDA - Sysmem Fallback Policy en "Prefer No Sysmem Fallback" en la configuración global de los paneles de control de Nvidia. Puede personalizar la cantidad de caché que desea asignar a la VRAM, pero para la mayoría de la gente, con activar el "Modo de baja VRAM" debería ser suficiente para empezar.

Necesitará descargar algunos modelos preentrenados antes de que Invoke AI funcione. Esto puede hacerse en el Gestor de Modelos (Fuente de la imagen: David Devey) — Necesitará descargar algunos modelos preentrenados antes de que Invoke AI funcione. Esto puede hacerse en el Gestor de modelos

Algunos modelos pueden descargarse inmediatamente, como Dreamshaper y CyberRealistic, pero para utilizar Stable Diffusion, tendrá que crear una cuenta HuggingFace y generar un token que permita a Invoke AI descargar el modelo. Sin embargo, hay formas de añadir modelos mediante URL, ruta local o escaneando una carpeta. Para crear el token, haga clic en el avatar de su cuenta en la parte superior derecha y seleccione "Tokens de acceso". Puede llamar al token como quiera, pero necesita dar acceso a lo siguiente:

Necesitará un código de acceso para poder descargar el modelo de difusión estable (Fuente de la imagen: David Devey) — Necesitará un token de acceso para poder descargar el modelo de difusión estable

Copie el token y péguelo en la casilla de la sección Cara abrazada de la pestaña de modelos. Es posible que tenga que permitir el acceso con una confirmación en el sitio web. No es necesario que se registre para recibir actualizaciones, e Invoke AI debería avisarle cuando tenga que permitir el acceso.

Tenga en cuenta que los distintos modelos ocuparán bastante espacio de almacenamiento en función de lo que decida descargar. La versión estable Diffusion 3.9 ocupa unos 19 GB.

Si ha configurado todo correctamente, debería estar listo para funcionar. Puede acceder a la interfaz a través de un navegador web en la máquina anfitriona yendo a http://127.0.0.1:9090. Nada le impide ponerlo a disposición de otras máquinas de su red local.

En la pestaña "lienzo", puede escribir un texto para generar una imagen. Justo debajo puede establecer la resolución de la imagen que desea generar; tenga en cuenta que cuanto mayor sea la resolución más tiempo tardará el proceso, aunque puede generar en una resolución más baja y utilizar una de las herramientas de aumento de escala para producir una resolución más alta. Debajo puede seleccionar el modelo que desea utilizar. De los 4 modelos probados, Juggernaut XL, Dreamshaper 8, CyberRealistic v4.8 y Stable Diffusion 3.5 (Grande), Stable Diffusion produjo imágenes más fotorrealistas, aunque tuvo problemas para interpretar las indicaciones de texto, mientras que los otros produjeron imágenes parecidas a escenas cortadas de juegos.

Prompt: Un elfo en el bosque con una espada luchando contra un orco - Aunque es la menos precisa en cuanto al prompt, la difusión estable produce las imágenes más realistas (Fuente de la imagen: David Devey) — Prompt: Un elfo en el bosque con una espada luchando contra un orco - Aunque es la menos precisa en cuanto a la indicación, la difusión estable produce las imágenes más realistas

Obviamente, el mejor modelo es el que ofrece los mejores resultados para su caso de uso. Stable Diffusion fue con diferencia el más lento, tardando entre 30 y 50 segundos en producir una imagen, pero los resultados parecieron sin duda los más realistas y agradables de los 4 modelos probados.

Indicaciones:

Arriba a la izquierda: Una mujer elegante caminando por una calle mirando hacia atrás a la cámara con el tráfico a la izquierda
Arriba a la derecha: Un perro carlino lamiendo un plátano
Abajo a la izquierda: Un astronauta de juguete sentado en media cáscara de huevo sobre la superficie de la luna
Abajo a la derecha: Una niña de pelo rubio y ojos azules en casa comiendo palomitas de maíz

La difusión estable ofrece lo que parecen ser las imágenes más fotorrealistas. Son útiles, pero no están exentas de defectos (Fuente de la imagen: David Devey) — La difusión estable ofrece lo que parecen ser las imágenes más fotorrealistas. Utilizable, pero no exenta de defectos

Aún queda mucho por descubrir con Invoke AI. La herramienta le permite reelaborar partes de una imagen, producir iteraciones, refinar imágenes y crear flujos de trabajo. No necesita un hardware excesivo para ejecutarla, la versión para Windows funcionará en cualquier GPU Nvidia de la serie 10xx o posterior, aunque puede esperar que las cosas vayan algo más lentas al generar imágenes. Aunque existen sentimientos encontrados en torno al entrenamiento de los modelos de IA y el consumo de energía necesario, ejecutar la IA localmente en su propio hardware es una forma estupenda de producir imágenes libres de derechos para diversos fines.