Google anuncia nuevos modelos de lenguaje de visión PaliGemma 2

Google anuncia nuevos modelos de lenguaje de visión PaliGemma 2 (Fuente de la imagen: Google)

Los modelos PaliGemma 2 de Google están disponibles en varios tamaños y resoluciones, y pueden comprender texto, imágenes y vídeos. Google también está pregonando la capacidad de crear subtítulos detallados y contextualmente relevantes.

Rohith Bhaskar (traducido por Ninh Duy), Publicado 12/06/2024 🇺🇸 🇫🇷 ...

Google ha anunciado la continuación del modelo de lenguaje visual PaliGemma lanzado en mayo de 2024. PaliGemma 2 está disponible en varios tamaños que van desde los 3.000 millones de parámetros hasta los 28.000 millones y varios tamaños de resolución de hasta 896px.

La empresa afirma que el modelo muestra "rendimiento líder en reconocimiento de fórmulas químicas, reconocimiento de partituras musicales, razonamiento espacial y generación de informes de radiografías de tórax"

También dispone de capacidades de subtitulado largo con "subtítulos detallados y contextualmente relevantes para las imágenes, que van más allá de la simple identificación de objetos para describir acciones, emociones y la narrativa general de la escena."

Los nuevos modelos se ofrecerán como "reemplazo inmediato" en múltiples tamaños sin "grandes modificaciones de código" Los modelos preentrenados están disponibles en Hugging Face y Kaggle y son gratuitos para que cualquiera pueda descargarlos y probarlos. También es compatible con múltiples marcos de trabajo, incluidos Hugging Face Transformers, Keras, PyTorch, JAX y Gemma.cpp.

Google afirma que "la flexibilidad de PaliGemma 2 hace que el ajuste fino para tareas y conjuntos de datos específicos sea sencillo, permitiéndole adaptar sus capacidades a sus necesidades precisas"