Los humanos pueden superar fácilmente a la IA según un estudio financiado por Apple
A principios de este mes, un equipo de seis científicos especializados en IA respaldados por Apple publicaron un estudio en el que presentaban GSM-Symbolic, un nuevo punto de referencia de IA que "permite realizar evaluaciones más controlables, proporcionando conocimientos clave y métricas más fiables para medir las capacidades de razonamiento de los modelos" Lamentablemente, parece que los LLM siguen estando muy limitados y carecen de las capacidades de razonamiento más básicas, según revelaron las pruebas iniciales realizadas utilizando GSM-Symbolic con los motores de IA de iconos del sector como Meta y OpenAI.
El problema de los modelos existentes, puesto de manifiesto por las pruebas mencionadas, reside en la falta de fiabilidad de los LLM cuando se les somete a consultas similares. El estudio concluyó que ligeros cambios de redacción que no alterarían el significado de una consulta para un humano suelen dar lugar a respuestas diferentes por parte de los robots de IA. La investigación no destacó ningún modelo que sobresalga.
"En concreto, el rendimiento de todos los modelos disminuye [incluso] cuando sólo se alteran los valores numéricos de la pregunta en la prueba de referencia GSM-Symbolic"
concluye la investigación, que también descubre que
"la fragilidad del razonamiento matemático en estos modelos [demuestra] que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas de una pregunta"
El estudio, que consta de 22 páginas, puede consultarse en aquí (archivo PDF). Las dos últimas páginas contienen problemas a los que se ha añadido alguna información irrelevante al final, que no debería alterar el resultado final para un humano que lo resuelva. Sin embargo, los modelos de IA utilizados también han tenido en cuenta estas partes, dando así respuestas erróneas.
Como conclusión, los modelos de IA aún no son capaces de ir más allá del reconocimiento de patrones y siguen careciendo de capacidades generalizables de resolución de problemas. Este año se han presentado bastantes LLM, como Llama 3.1 de Meta AI, el Nemotron-4 de Nvidia, el Claude 3 de Anthropic, el japonés Fugaku-LLM (el mayor modelo jamás entrenado exclusivamente con la potencia de la CPU), y Novade Rubik's AI, una familia de LLM que se dio a conocer a principios de este mes.
Mañana, O'Reilly publicará la primera edición de Hands-On Large Language Models: Language Understanding and Generation, de Jay Alammar y Maarten Grootendorst. Su precio es de 48,99 dólares (Kindle) o 59,13 dólares (tapa blanda).
Fuente(s)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck