Descubierta una forma de ejecutar el modelo de IA 671B de DeepSeek sin costosas GPUs

Fuente de la imagen: Aristal, Pixabay

El ingeniero de Hugging Face Matthew Carrigan reveló recientemente en X un método para ejecutar localmente el modelo avanzado R1 de DeepSeek con cuantización de 8 bits, eliminando la necesidad de costosas GPU, por un coste reportado de 6.000 dólares. ¿La clave? Disponer de mucha memoria en lugar de grandes reservas de potencia de cálculo.

Daniel Miron (traducido por Ninh Duy), Publicado 02/05/2025 🇺🇸 🇫🇷 ...

AI Software

Lanzado el 20 de enero de 2025, DeepSeek-R1 es un modelo Mixture-of-Experts (MoE) de 671B parámetros con 37B parámetros activos por token. Diseñado para el razonamiento avanzado, admite 128K tokens de entrada y genera hasta 32K tokens. Gracias a su arquitectura MoE, ofrece un rendimiento de primer nivel utilizando menos recursos que los modelos densos tradicionales.

Las pruebas independientes de https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks sugieren que el modelo de lenguaje R1 alcanza un rendimiento comparable al O1 de OpenAI, lo que lo posiciona como una alternativa competitiva en aplicaciones de IA de alto nivel. Averigüemos qué necesitamos para ejecutarlo localmente.

El hardware

Esta compilación se centra en dos CPU AMD Epyc y 768 GB de RAM DDR5, sin necesidad de GPU caras.

Caja: Enthoo Pro 2 Server
Placa base: Gigabyte MZ73-LM0 o MZ73-LM1 (tiene dos zócalos para CPU y 24 ranuras para RAM)
CPU: 2x AMD Epyc 9004/9005 (9115 o 9015 funcionan como opciones más económicas)
Refrigeración: Arctic Freezer 4U-SP5
RAM: 24x 32GB DDR5 RDIMM (768GB en total)
Almacenamiento: 1TB+ SSD NVMe (para cargar rápidamente 700GB de pesos modelo)
Fuente de alimentación: Corsair HX1000i (1000W, suficiente para CPUs duales)

Software y configuración

Una vez montado, Linux y llama.cpp necesitan ser instalados para poder ejecutar el modelo. Un ajuste crucial de la BIOS, poner los grupos NUMA a 0, duplica la eficiencia de la RAM para un mejor rendimiento. Los 700 GB completos de pesos de DeepSeek-R1 pueden descargarse https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/maindesde Hugging Face.

Rendimiento

Esta configuración genera entre 6 y 8 fichas por segundo, nada mal para un modelo de IA de gama alta totalmente local. Se salta la GPU por completo, pero eso es intencionado. Ejecutar la cuantización Q8 (para alta calidad) en las GPU requeriría más de 700 GB de VRAM, lo que costaría más de 100.000 dólares. A pesar de su potencia bruta, todo el sistema consume menos de 400W, lo que lo hace sorprendentemente eficiente.

Para los que quieren un control total sobre la IA de frontera, sin nube, sin restricciones, esto es un cambio de juego. Demuestra que la IA de gama alta puede ejecutarse localmente, de forma totalmente abierta, al tiempo que se prioriza la privacidad de los datos, se minimizan las vulnerabilidades a las brechas y se elimina la dependencia de sistemas externos.