Los humanos pueden superar fácilmente a la IA según un estudio financiado por Apple

Humanos contra IA (Fuente de la imagen: Generada usando DALL-E 3)

Aunque a menudo ofrecen resultados impresionantes, los motores de IA como los de Meta y OpenAI, que utilizan grandes modelos lingüísticos, siguen careciendo de capacidades básicas de razonamiento. Un grupo respaldado por Apple propuso un nuevo punto de referencia, que ya reveló que incluso los más mínimos cambios de redacción en una consulta pueden dar lugar a respuestas completamente diferentes.

Codrut Nistor (traducido por Ninh Duy), Publicado 10/14/2024 🇺🇸 🇩🇪 ...

AI Science Fail

A principios de este mes, un equipo de seis científicos especializados en IA respaldados por Apple publicaron un estudio en el que presentaban GSM-Symbolic, un nuevo punto de referencia de IA que "permite realizar evaluaciones más controlables, proporcionando conocimientos clave y métricas más fiables para medir las capacidades de razonamiento de los modelos" Lamentablemente, parece que los LLM siguen estando muy limitados y carecen de las capacidades de razonamiento más básicas, según revelaron las pruebas iniciales realizadas utilizando GSM-Symbolic con los motores de IA de iconos del sector como Meta y OpenAI.

El problema de los modelos existentes, puesto de manifiesto por las pruebas mencionadas, reside en la falta de fiabilidad de los LLM cuando se les somete a consultas similares. El estudio concluyó que ligeros cambios de redacción que no alterarían el significado de una consulta para un humano suelen dar lugar a respuestas diferentes por parte de los robots de IA. La investigación no destacó ningún modelo que sobresalga.

"En concreto, el rendimiento de todos los modelos disminuye [incluso] cuando sólo se alteran los valores numéricos de la pregunta en la prueba de referencia GSM-Symbolic"

concluye la investigación, que también descubre que

"la fragilidad del razonamiento matemático en estos modelos [demuestra] que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas de una pregunta"

El estudio, que consta de 22 páginas, puede consultarse en aquí (archivo PDF). Las dos últimas páginas contienen problemas a los que se ha añadido alguna información irrelevante al final, que no debería alterar el resultado final para un humano que lo resuelva. Sin embargo, los modelos de IA utilizados también han tenido en cuenta estas partes, dando así respuestas erróneas.

Como conclusión, los modelos de IA aún no son capaces de ir más allá del reconocimiento de patrones y siguen careciendo de capacidades generalizables de resolución de problemas. Este año se han presentado bastantes LLM, como Llama 3.1 de Meta AI, el Nemotron-4 de Nvidia, el Claude 3 de Anthropic, el japonés Fugaku-LLM (el mayor modelo jamás entrenado exclusivamente con la potencia de la CPU), y Novade Rubik's AI, una familia de LLM que se dio a conocer a principios de este mes.

Mañana, O'Reilly publicará la primera edición de Hands-On Large Language Models: Language Understanding and Generation, de Jay Alammar y Maarten Grootendorst. Su precio es de 48,99 dólares (Kindle) o 59,13 dólares (tapa blanda).