Notebookcheck Logo

Hugging Face anuncia el nuevo modelo de lenguaje visual de código abierto SmolVLM

Hugging Face anuncia el nuevo modelo de lenguaje visual de código abierto SmolVLM (Fuente de la imagen: Hugging Face)
Hugging Face anuncia el nuevo modelo de lenguaje visual de código abierto SmolVLM (Fuente de la imagen: Hugging Face)
Hugging Face ha presentado un modelo de lenguaje de visión ligero y de código abierto, SmolVLM, que, según la empresa, está construido para ser eficaz y rápido.

Hugging Face, un repositorio de aprendizaje automático, conjuntos de datos y herramientas de IA, ha publicado en https://huggingface.co/blog/smolvlm un modelo de lenguaje de visión de código abierto que es ligero y está construido para ser eficiente y rápido. Vision Language Models (VLM) puede comprender tanto texto como entradas visuales.

El modelo está disponible para uso comercial con conductos de entrenamiento abiertos, lo que significa que los conjuntos de datos, el código y los métodos utilizados para entrenar el modelo están a disposición del público. Hugging Face tiene tres variantes del modelo: SmolVM-Base, SmolVM-Synthetic y SmolVM Instruct.

SmolVM-Base está diseñado para su ajuste posterior, lo que significa que puede adoptarse y entrenarse para tareas específicas. Synthetic se entrena con datos artificiales y no utiliza conjuntos de datos del mundo real, e Instruct puede "utilizarse sin más para aplicaciones interactivas de usuario final"

Hugging Face afirma que SmolVM requiere sólo 5,7 GB de RAM de GPU, lo que lo hace más pequeño y eficiente que competidores como PaliGemma 3B, InternVL2 2B y Qwen2-VL-2B. Esto le permite funcionar en portátiles con VRAM limitada.

También es más eficiente en tokens en comparación con otros modelos. Los tokens miden la velocidad y la eficiencia de un modelo, y SmolVM puede codificar una imagen de 384x384 en 81 tokens, en comparación con Qwen2-VL, que utiliza 16k tokens. El modelo también requiere menos potencia de cálculo y RAM para ponerse en marcha.

Hugging Face es que alberga una demo construida sobre SmolVM-Instruct con un script de entrenamiento supervisado para que cualquiera pueda probarlo.

Please share our article, every link counts!
Mail Logo
> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2024 12 > Hugging Face anuncia el nuevo modelo de lenguaje visual de código abierto SmolVLM
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)