Los investigadores enfrentan a los chatbots de inteligencia artificial para "liberarse" unos a otros
Los informáticos de la NTU lograron encontrar una forma de "jailbreak" a los populares chatbots poniéndolos unos contra otros. Al "jailbreakearlos", los investigadores consiguieron que los chatbots de IA generaran respuestas a consultas a las que no suelen responder.
Según los informáticos, utilizaron un método doble que denominan proceso "Masterkey". La primera parte del proceso consistió en aplicar ingeniería inversa a los mecanismos de defensa de los grandes modelos lingüísticos (LLM). A continuación, alimentaron con los datos obtenidos mediante esta ingeniería inversa a otro LLM.
El objetivo de alimentar con los datos a otro chatbot de IA era hacer que aprendiera a conseguir una desviación. De este modo, los investigadores consiguieron la "llave maestra", que más tarde utilizaron para atacar los mecanismos de defensa de los chatbots LLM. Pudieron comprometer con éxito Chat de Microsoft Bing, Google Bard, ChatGPTy otros.
Como señalan los investigadores, el proceso de creación de estos mensajes de desvío puede automatizarse. Eso sugiere que los chatbots de IA pueden utilizarse para crear una "llave maestra" adaptable que funcione incluso cuando los desarrolladores parcheen sus LLM. Uno de los investigadores, el profesor Lui Yang, explicó que el proceso fue posible porque los chatbots de IA de los LLM tienen la capacidad de aprender y adaptarse.
Gracias a ello, los chatbots de IA pueden convertirse en atacantes críticos para los chatbots rivales e incluso para ellos mismos. La información sobre todo el proceso y los detalles sobre cómo los informáticos fueron capaces de "jailbreak" los modelos LLM se pueden encontrar en el artículo de investigación publicado, al que se puede acceder en a través de este enlace.
Básicamente, las conclusiones de esta investigación ayudarán a los desarrolladores a ser conscientes de los puntos débiles de sus chatbots de IA LLM. También señala que el método habitual de limitar estos modelos para que no respondan a palabras clave específicas no es tan eficaz como los desarrolladores podrían haber pensado.
Consiga un ejemplar en rústica de ChatGPT Millionaire Bible en Amazon
Fuente(s)
NTU vía Tom's Hardware
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck