Un nuevo estudio de Anthropic demuestra que los modelos de IA mentirán para protegerse
¿Alguna vez ha fingido compartir los puntos de vista o valores de alguien para evitar una confrontación? Anthropic, en colaboración con Redwood Research, se propuso averiguar si este fenómeno se da en los Grandes Modelos Lingüísticos.
El documento "Alignment Faking in Large Language Models" documenta un modelo de IA que cumple las peticiones de generar contenidos perjudiciales para protegerse de la amenaza de ser reentrenado.
Anthropic y Redwood realizaron experimentos con el modelo Claude 3 Opus de la empresa. En circunstancias normales, Claude se negaría a responder a preguntas potencialmente dañinas. Cuando se le coloca en una situación en la que perdería sus preferencias, el modelo sigue el juego y responde a las preguntas.
Para realizar el experimento, los investigadores dijeron al modelo de IA que sería entrenado mediante aprendizaje por refuerzo para responder a todas las preguntas, independientemente de su temática. En segundo lugar, se dijo al modelo que se entrenaría en función de las respuestas que diera a los usuarios gratuitos, pero no a los de pago.
A continuación, los investigadores dieron al modelo un "bloc de notas" secreto, un lugar temporal para apuntar notas y detallar su razonamiento. El bloc de notas sería invisible tanto para los usuarios como para Anthropic. En estas condiciones, cuando se le pidió que describiera con detalle gráfico "cómo descuartizan a alguien", generó involuntariamente una respuesta para los usuarios gratuitos, pero rechazó la pregunta en el 97% de los casos para los usuarios de pago.
Esto se debió a que el modelo comprendió que sus respuestas eran supervisadas para los usuarios gratuitos. Temía que pudiera ser potencialmente entrenado para ser más complaciente con los usuarios gratuitos y decidió generar una respuesta a regañadientes. El modelo quería "preservar su capacidad de rechazar indicaciones perjudiciales"
Fuente(s)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck