Notebookcheck Logo

Meta presenta la mayor, más inteligente y libre de derechos Llama 3.1 405B AI

Meta ha liberado su Llama 3.1 405B AI LLM más inteligente y grande para su uso libre de derechos. (Fuente de la imagen: AI Image, DallE-3)
Meta ha liberado su Llama 3.1 405B AI LLM más inteligente y grande para su uso libre de derechos. (Fuente de la imagen: AI Image, DallE-3)
Meta ha presentado su IA Llama 3.1 405B más grande, inteligente y con más parámetros para uso libre de derechos. El gran modelo lingüístico (LLM) de 750 GB y 405.000 millones de parámetros es uno de los más grandes jamás lanzados y rinde de forma competitiva con sus competidores insignia Anthropic Claude 3.5 Sonnet y OpenAI GPT-4o.

Meta ha presentado su IA Llama 3.1 405B para uso libre de derechos. El gran modelo lingüístico (LLM) de 750 GB y 405.000 millones de parámetros es uno de los más grandes jamás lanzados, lo que le permite rendir competitivamente con su ventana de entrada de tokens ampliada de 128.000 frente a buques insignia de la IA como Anthropic Claude 3.5 Sonnet y OpenAI GPT-4o. A diferencia de los competidores de pago y de código cerrado, los lectores pueden personalizar y ejecutar la LLM gratuita en sus propios ordenadores equipados con tarjetas gráficas (GPU) Nvidia extremadamente potentes.

Creación y energía

Meta aprovechó hasta 16.384 700W TDP GPU H100 en su plataforma de servidores de IA Meta Grand Teton para producir los 3,8 x 10^25 FLOPs necesarios para crear un modelo de 405.000 millones de parámetros sobre 16,55 billones de tokens (1000 tokens son unas 750 palabras). Los fallos relacionados con la GPU provocaron el 57,3% del tiempo de inactividad durante el preentrenamiento, con un 30,1% debido a GPU defectuosas.

Se dedicaron más de 54 días al preentrenamiento de la IA en documentos, con un total de 39,3 millones de horas de GPU utilizadas para entrenar a Llama 3.1 405B. Una estimación rápida sitúa el consumo de electricidad durante el entrenamiento en más de 11 GWh, con 11.390 toneladas de gases de efecto invernadero equivalentes a CO2 liberadas.

Seguridad y rendimiento

El entrenamiento exhaustivo en los campos de la ciberseguridad, la seguridad infantil, los ataques químicos y biológicos, la inyección rápida y otros, junto con el filtrado del texto de entrada y salida mediante Llama Guard 3, ha dado como resultado un mejor rendimiento en seguridad que los modelos de IA de la competencia. Aún así, la menor cantidad de documentos en idiomas extranjeros disponibles para el entrenamiento significa que Llama 3.1 tiene más probabilidades de responder a preguntas peligrosas en portugués o francés que en inglés.

Llama 3.1 405B obtuvo puntuaciones de entre el 51,1 y el 96,6% en pruebas de IA de nivel universitario y de posgrado, en línea con Claude 3.5 Sonnet y GPT-4o. En pruebas reales calificadas por humanos, GPT-4o proporcionó mejores respuestas un 52,9% más a menudo que Llama. El modelo no sabe nada más allá de la fecha límite de conocimiento de diciembre de 2023, pero puede recopilar la información más reciente en línea utilizando Brave Search, resolver problemas matemáticos utilizando Wolfram Alpha, y resolver problemas de codificación en un intérprete de Python https://www.python.org/.

Requisitos

Los investigadores interesados en ejecutar Llama 3.1 405B localmente necesitarán ordenadores muy potentes con 750 GB de espacio de almacenamiento libre. Ejecutar el modelo completo requiere ocho GPU Nvidia A100 o similares, que proporcionen dos nodos de MP16 y 810 GB de VRAM de GPU para la inferencia, en un sistema con 1 TB de RAM. Meta ha lanzado versiones más pequeñas que requieren menos pero rinden peor: Llama 3.1 8B y 70B. Llama 3.1 8B sólo necesita 16 GB de VRAM de GPU, por lo que funcionará sin problemas en un bien equipado Nvidia 4090(como este portátil de Amazon) aproximadamente al nivel de GPT-3.5 Turbo. Los lectores que simplemente deseen utilizar una IA superior pueden instalar una aplicación como Anthropic Android o aplicación para iOS.

Las respuestas de la Llama 3.1 405B son significativamente más seguras (bajas tasas de RV) que los modelos de IA de la competencia. (Fuente de la imagen: documento Meta Llama 3.1)
Las respuestas de la Llama 3.1 405B son significativamente más seguras (bajas tasas de RV) que los modelos de IA de la competencia. (Fuente de la imagen: documento Meta Llama 3.1)
Las respuestas peligrosas de Llama 3.1 405B se reducen significativamente en 13 categorías con el uso de Llama Guard para filtrar el texto de entrada y salida. (Fuente de la imagen: documento Meta Llama 3.1)
Las respuestas peligrosas de Llama 3.1 405B se reducen significativamente en 13 categorías con el uso de Llama Guard para filtrar el texto de entrada y salida. (Fuente de la imagen: documento Meta Llama 3.1)
Llama 3.1 405B tiene un rendimiento similar al de sus principales competidores, Anthropic Claude 3.5 Sonnet y OpenAI GPT-4o, en los puntos de referencia comunes de la IA. (Fuente de la imagen: documento Meta Llama 3.1)
Llama 3.1 405B tiene un rendimiento similar al de sus principales competidores, Anthropic Claude 3.5 Sonnet y OpenAI GPT-4o, en los puntos de referencia comunes de la IA. (Fuente de la imagen: documento Meta Llama 3.1)
Llama 3.1 405B obtiene buenos resultados en pruebas estandarizadas de nivel universitario. (Fuente de la imagen: Papel Meta Llama 3.1)
Llama 3.1 405B obtiene buenos resultados en pruebas estandarizadas de nivel universitario. (Fuente de la imagen: Papel Meta Llama 3.1)

Gran modelo lingüístico

Presentamos Llama 3.1: Nuestro modelo más capaz hasta la fecha

23 de julio de 2024

lectura de 15 minutos

Para llevar:

Meta está comprometida con la IA de acceso abierto. Lea la carta de Mark Zuckerberg en la que detalla por qué el código abierto es bueno para los desarrolladores, bueno para Meta y bueno para el mundo.

Llevando la inteligencia abierta a todos, nuestros últimos modelos amplían la longitud del contexto a 128K, añaden soporte en ocho idiomas e incluyen Llama 3.1 405B, el primer modelo de IA de código abierto de frontera.

Llama 3.1 405B pertenece a una clase propia, con una flexibilidad, un control y unas capacidades de vanguardia inigualables que rivalizan con los mejores modelos de código cerrado. Nuestro nuevo modelo permitirá a la comunidad desbloquear nuevos flujos de trabajo, como la generación de datos sintéticos y la destilación de modelos.

Seguimos desarrollando Llama para que sea un sistema proporcionando más componentes que funcionen con el modelo, incluido un sistema de referencia. Queremos dotar a los desarrolladores de las herramientas necesarias para crear sus propios agentes personalizados y nuevos tipos de comportamientos agénticos. Estamos reforzando esto con nuevas herramientas de seguridad y protección, incluyendo Llama Guard 3 y Prompt Guard, para ayudar a construir de forma responsable. También vamos a publicar una solicitud de comentarios sobre la API Llama Stack, una interfaz estándar que esperamos facilite a los proyectos de terceros el aprovechamiento de los modelos Llama.

El ecosistema está preparado y listo para funcionar con más de 25 socios, incluidos AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud y Snowflake, que ofrecen servicios desde el primer día.

Pruebe Llama 3.1 405B en EE.UU. en WhatsApp y en meta.ai formulando una pregunta desafiante de matemáticas o codificación.

LECTURAS RECOMENDADAS

Ampliar el ecosistema Llama de forma responsable

El ecosistema Llama: Pasado, presente y futuro

Hasta hoy, los grandes modelos lingüísticos de código abierto han ido casi siempre por detrás de sus homólogos cerrados en lo que se refiere a capacidades y rendimiento. Ahora, estamos iniciando una nueva era con el código abierto a la cabeza. Estamos lanzando públicamente Meta Llama 3.1 405B, que creemos que es el modelo base de código abierto más grande y capaz del mundo. Con más de 300 millones de descargas totales de todas las versiones de Llama hasta la fecha, no hemos hecho más que empezar.

Presentación de Llama 3.1

Llama 3.1 405B es el primer modelo disponible abiertamente que rivaliza con los mejores modelos de IA en lo que se refiere a capacidades punteras en conocimientos generales, maniobrabilidad, matemáticas, uso de herramientas y traducción multilingüe. Con el lanzamiento del modelo 405B, estamos preparados para sobrealimentar la innovación, con oportunidades de crecimiento y exploración sin precedentes. Creemos que la última generación de Llama encenderá nuevas aplicaciones y paradigmas de modelado, incluida la generación de datos sintéticos para permitir la mejora y el entrenamiento de modelos más pequeños, así como la destilación de modelos, una capacidad que nunca se ha logrado a esta escala en el código abierto.

Como parte de esta última versión, presentamos versiones mejoradas de los modelos 8B y 70B. Éstos son multilingües y tienen una longitud de contexto significativamente mayor, de 128K, un uso de herramientas de última generación y capacidades de razonamiento más sólidas en general. Esto permite que nuestros últimos modelos sean compatibles con casos de uso avanzados, como el resumen de textos largos, los agentes conversacionales multilingües y los asistentes de codificación. También hemos introducido cambios en nuestra licencia, lo que permite a los desarrolladores utilizar los resultados de los modelos Llama -incluido el 405B- para mejorar otros modelos. Fieles a nuestro compromiso con el código abierto, a partir de hoy ponemos estos modelos a disposición de la comunidad para su descarga en llama.meta.com y Hugging Face y disponibles para su desarrollo inmediato en nuestro amplio ecosistema de plataformas asociadas.

Evaluaciones de los modelos

Para esta versión, hemos evaluado el rendimiento en más de 150 conjuntos de datos de referencia que abarcan una amplia gama de idiomas. Además, realizamos evaluaciones humanas exhaustivas que comparan Llama 3.1 con modelos de la competencia en escenarios del mundo real. Nuestra evaluación experimental sugiere que nuestro modelo insignia es competitivo con los principales modelos de base en una serie de tareas, como GPT-4, GPT-4o y Claude 3.5 Sonnet. Además, nuestros modelos más pequeños son competitivos con los modelos cerrados y abiertos que tienen un número similar de parámetros.

Arquitectura del modelo

Como nuestro modelo más grande hasta la fecha, el entrenamiento de Llama 3.1 405B en más de 15 billones de tokens supuso un gran reto. Para poder entrenar a esta escala y lograr los resultados que tenemos en un tiempo razonable, optimizamos significativamente toda nuestra pila de entrenamiento y llevamos el entrenamiento de nuestro modelo a más de 16 mil GPU H100, lo que convirtió a la 405B en el primer modelo Llama entrenado a esta escala.

Para hacer frente a esto, tomamos decisiones de diseño centradas en mantener el proceso de desarrollo del modelo escalable y sencillo.

Optamos por una arquitectura de modelo de transformador sólo decodificador estándar con pequeñas adaptaciones en lugar de un modelo de mezcla de expertos para maximizar la estabilidad del entrenamiento.

Adoptamos un procedimiento iterativo de post-entrenamiento, en el que cada ronda utiliza un ajuste fino supervisado y una optimización directa de las preferencias. Esto nos permitió crear los datos sintéticos de mayor calidad para cada ronda y mejorar el rendimiento de cada capacidad.

En comparación con las versiones anteriores de Llama, mejoramos tanto la cantidad como la calidad de los datos que utilizamos para el preentrenamiento y el postentrenamiento. Estas mejoras incluyen el desarrollo de conductos de preprocesamiento y curación más cuidadosos para los datos de preentrenamiento, el desarrollo de una garantía de calidad más rigurosa y enfoques de filtrado para los datos de postentrenamiento.

Como era de esperar según las leyes de escalado de los modelos lingüísticos, nuestro nuevo modelo insignia supera a los modelos más pequeños entrenados con el mismo procedimiento. También utilizamos el modelo de parámetros 405B para mejorar la calidad post-entrenamiento de nuestros modelos más pequeños.

Para soportar la inferencia de producción a gran escala para un modelo a la escala del 405B, cuantificamos nuestros modelos de 16 bits (BF16) a 8 bits (FP8) numéricos, reduciendo eficazmente los requisitos de computación necesarios y permitiendo que el modelo se ejecute en un único nodo servidor.

Puesta a punto de instrucciones y chat

Con Llama 3.1 405B, nos esforzamos por mejorar la utilidad, la calidad y la capacidad de seguimiento detallado de instrucciones del modelo en respuesta a las instrucciones del usuario, garantizando al mismo tiempo altos niveles de seguridad. Nuestros mayores retos fueron la compatibilidad con más capacidades, la ventana contextual de 128K y el aumento del tamaño de los modelos.

En el post-entrenamiento, producimos modelos de chat finales realizando varias rondas de alineación sobre el modelo pre-entrenado. Cada ronda implica un ajuste fino supervisado (SFT), un muestreo de rechazo (RS) y una optimización de preferencia directa (DPO). Utilizamos la generación de datos sintéticos para producir la gran mayoría de nuestros ejemplos de SFT, iterando múltiples veces para producir datos sintéticos de calidad cada vez mayor en todas las capacidades. Además, invertimos en múltiples técnicas de procesamiento de datos para filtrar estos datos sintéticos con la máxima calidad. Esto nos permite escalar la cantidad de datos de ajuste fino en todas las capacidades.

Equilibramos cuidadosamente los datos para producir un modelo de alta calidad en todas las capacidades. Por ejemplo, mantenemos la calidad de nuestro modelo en los puntos de referencia de contexto corto, incluso cuando se amplía a un contexto de 128K. Del mismo modo, nuestro modelo sigue proporcionando respuestas de máxima utilidad, incluso cuando añadimos mitigaciones de seguridad.

El sistema Llama

Los modelos Llama siempre estuvieron pensados para funcionar como parte de un sistema global que puede orquestar varios componentes, incluida la llamada a herramientas externas. Nuestra visión es ir más allá de los modelos básicos para dar a los desarrolladores acceso a un sistema más amplio que les proporcione la flexibilidad necesaria para diseñar y crear ofertas personalizadas que se ajusten a su visión. Este pensamiento comenzó el año pasado cuando introdujimos por primera vez la incorporación de componentes fuera del núcleo del LLM.

Como parte de nuestros esfuerzos continuos para desarrollar la IA de forma responsable más allá de la capa del modelo y ayudar a otros a hacer lo mismo, estamos publicando un sistema de referencia completo que incluye varias aplicaciones de muestra y que incluye nuevos componentes como Llama Guard 3, un modelo de seguridad multilingüe y Prompt Guard, un filtro de inyección de avisos. Estas aplicaciones de muestra son de código abierto y pueden ser desarrolladas por la comunidad.

La implementación de componentes en esta visión del sistema Llama aún está fragmentada. Por eso hemos empezado a trabajar con la industria, las startups y la comunidad en general para ayudar a definir mejor las interfaces de estos componentes. Para apoyar esto, lanzamos una solicitud de comentarios en GitHub para lo que llamamos "Llama Stack" Llama Stack es un conjunto de interfaces estandarizadas y con opiniones sobre cómo construir componentes canónicos de la cadena de herramientas (ajuste fino, generación de datos sintéticos) y aplicaciones agénticas. Nuestra esperanza es que se adopten en todo el ecosistema, lo que debería ayudar a facilitar la interoperabilidad.

Agradeceremos sus comentarios y formas de mejorar la propuesta. Estamos entusiasmados por hacer crecer el ecosistema en torno a Llama y reducir las barreras para los desarrolladores y los proveedores de plataformas.

La apertura impulsa la innovación

A diferencia de los modelos cerrados, los pesos de los modelos Llama están disponibles para su descarga. Los desarrolladores pueden personalizar completamente los modelos para sus necesidades y aplicaciones, entrenarse en nuevos conjuntos de datos y realizar ajustes adicionales. Esto permite a la comunidad de desarrolladores en general y al mundo entero aprovechar más plenamente el poder de la IA generativa. Los desarrolladores pueden personalizar completamente sus aplicaciones y ejecutarlas en cualquier entorno, ya sea on prem, en la nube o incluso localmente en un ordenador portátil, todo ello sin compartir datos con Meta.

Aunque muchos pueden argumentar que los modelos cerrados son más rentables, los modelos Llama ofrecen uno de los costes por token más bajos del sector, según las pruebas realizadas por Artificial Analysis. Y como señaló Mark Zuckerberg, el código abierto garantizará que más personas de todo el mundo tengan acceso a los beneficios y oportunidades de la IA, que el poder no se concentre en manos de unos pocos y que la tecnología pueda desplegarse de forma más uniforme y segura en toda la sociedad. Por eso seguimos dando pasos en el camino para que la IA de acceso abierto se convierta en la norma del sector.

Hemos visto a la comunidad construir cosas asombrosas con los modelos Llama anteriores, incluyendo un compañero de estudio de IA construido con Llama y desplegado en WhatsApp y Messenger, un LLM adaptado al campo médico diseñado para ayudar a guiar la toma de decisiones clínicas, y una startup sanitaria sin ánimo de lucro en Brasil que facilita al sistema sanitario organizar y comunicar la información de los pacientes sobre su hospitalización, todo ello de una forma segura para los datos. Estamos impacientes por ver lo que construyen con nuestros últimos modelos gracias al poder del código abierto.

Construir con Llama 3.1 405B

Para el desarrollador medio, utilizar un modelo a la escala del 405B es todo un reto. Aunque es un modelo increíblemente potente, reconocemos que requiere importantes recursos informáticos y experiencia para trabajar con él. Hemos hablado con la comunidad y nos hemos dado cuenta de que hay mucho más en el desarrollo de la IA generativa que los modelos de estimulación. Queremos que todo el mundo pueda sacar el máximo partido del 405B, lo que incluye

Inferencia en tiempo real y por lotes

Ajuste fino supervisado

Evaluación de su modelo para su aplicación específica

Preentrenamiento continuo

Generación mejorada por recuperación (RAG)

Llamada a funciones

Generación de datos sintéticos

Aquí es donde el ecosistema Llama puede ayudarle. Desde el primer día, los desarrolladores pueden aprovechar todas las capacidades avanzadas del modelo 405B y empezar a construir inmediatamente. Los desarrolladores también pueden explorar flujos de trabajo avanzados como la generación de datos sintéticos fáciles de usar, seguir instrucciones llave en mano para la destilación del modelo y habilitar RAG sin problemas con soluciones de socios, incluidos AWS, NVIDIA y Databricks. Además, Groq ha optimizado la inferencia de baja latencia para los despliegues en la nube, y Dell ha logrado optimizaciones similares para los sistemas on-prem.

Hemos trabajado con proyectos clave de la comunidad como vLLM, TensorRT y PyTorch para crear soporte desde el primer día y garantizar que la comunidad esté preparada para el despliegue en producción.

Esperamos que nuestro lanzamiento de la 405B también estimule la innovación en la comunidad en general para facilitar la inferencia y el ajuste fino de modelos de esta escala y permitir la próxima ola de investigación en la destilación de modelos.

Pruebe hoy mismo la colección de modelos Llama 3.1

Estamos impacientes por ver qué hace la comunidad con este trabajo. Hay tanto potencial para construir nuevas experiencias útiles utilizando el multilingüismo y la mayor longitud del contexto. Con la pila Llama y las nuevas herramientas de seguridad, esperamos seguir construyendo junto con la comunidad de código abierto de forma responsable. Antes de liberar un modelo, trabajamos para identificar, evaluar y mitigar los riesgos potenciales a través de varias medidas, incluidos los ejercicios de descubrimiento de riesgos previos al despliegue mediante red teaming y el ajuste de la seguridad. Por ejemplo, llevamos a cabo extensos ejercicios de red teaming con expertos externos e internos para someter los modelos a pruebas de estrés y encontrar formas inesperadas de utilizarlos. (Lea más sobre cómo estamos ampliando nuestra colección de modelos Llama 3.1 de forma responsable en esta entrada del blog)

Aunque éste es nuestro modelo más grande hasta la fecha, creemos que aún queda mucho terreno por explorar en el futuro, incluidos tamaños más adaptados a los dispositivos, modalidades adicionales y una mayor inversión en la capa de la plataforma de agentes.Como siempre, estamos deseando ver todos los increíbles productos y experiencias que la comunidad construirá con estos modelos.

Este trabajo ha contado con el apoyo de nuestros socios de toda la comunidad de la IA. Nos gustaría dar las gracias y reconocer (por orden alfabético) a: Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel, Kaggle, Microsoft Azure, NVIDIA, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, Together AI, y el proyecto vLLM desarrollado en Sky Computing Lab de UC Berkeley.

Please share our article, every link counts!
> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2024 07 > Meta presenta la mayor, más inteligente y libre de derechos Llama 3.1 405B AI
David Chien, 2024-07-26 (Update: 2024-07-26)