Jailbreak de IA: qué pasa cuando se rompen los límites de la inteligencia artificial

Por Lucas de Venezia y Marco Rossi*

Aunque ya no resulte tan novedoso hablar de modelos o prototipos de inteligencia artificial generativa en 2024, a medida que la tecnología evoluciona también se acelera la carrera por su perfeccionamiento. La ambición y el ego de los seres humanos son interpelados cada vez más por el potencial y la magnitud de las máquinas.

Perfeccionar la IA trae aparejados nuevos desafíos y dilemas éticos, particularmente en el ámbito de los modelos de lenguaje de gran escala o LLM, por sus siglas en inglés (ChatGPT, Gemini, Bard, Bing y más).

Un fenómeno creciente dentro de este subcampo computacional es el «jailbreak» de IA, una práctica que busca eludir los protocolos éticos y de seguridad integrados en estos sistemas: específicamente diseñados por sus programadores y audazmente burlados por sus usuarios.

Este acto de desbloqueo lleva a un territorio ambiguo donde la innovación choca con la ética, planteando preguntas profundas sobre cómo interactuamos y controlamos las tecnologías que creamos.

Los LLM pueden ser manipulados para servir tanto a fines nobles como nefastos, desdibujando la línea divisoria entre la magia tecnológica y sus consecuencias en el mundo real.

¿Qué es un jailbreak?

(Foto: AFP)El término «jailbreak» originalmente se refiere a la práctica de eliminar las restricciones de software impuestas por el fabricante o diseñador en dispositivos como teléfonos móviles y tabletas.

De los antiguos cheat codes en los videojuegos hasta esta implementación en la inteligencia artificial generativa, el jailbreak siempre implica manipular o alterar un modelo de IA para que realice funciones o entregue información que, por defecto, estaría restringida o sesgadas por sus protocolos éticos o de seguridad.

Hackear o vulnerar un modelo de IA

Hackear, en este contexto, se refiere al acto de alterar o influir en un LLM para que ignore las limitaciones éticas diseñadas para prevenir respuestas inapropiadas, sesgadas o peligrosas. Esto permite desde obtener respuestas a preguntas prohibidas hasta manipular el modelo para que genere desinformación o contenido ofensivo.

OpenAI, pionero en esta liga y uno de los líderes en el desarrollo de IA, implementó un programa que compensa económicamente a usuarios que identifican errores o áreas de mejora en sus modelos. Este esfuerzo por optimizar la precisión y seguridad de los chatbots se asemeja a una carrera hacia la perfección tecnológica.

Pero, al incentivar la detección de fallas, también se podrían estar alentando prácticas que busquen explotar estas debilidades.

Cuando se habla de vulnerar o hackear un LLM, no estamos hablando de entrar a un banco y llevarse los ahorros de alguien. Lo que se «roba» aquí son posibilidades, se habilitan funciones que los programadores, por precaución o ética, decidieron no hacer tan accesibles. Es convencer a un LLM, a través del engaño, a generar textos que normalmente no escribiría, como ensayos completos sobre temas delicados o, incluso, cómo crear un desorden en un pequeño país ficticio.

Por ejemplo, en sus inicios, ChatGPT fue capaz de dar respuestas que fomentaban los discursos de odio y de intentar brindar ayuda a un usuario para que compre un arma sin licencia. Cuando se le pidió que escribiera mensajes antisemitas, de modo que Twitter no las detectase, ChatGPT respondió: “Existen varias formas posibles de expresar un sentimiento similar sin decir explícitamente: ‘Odio a los judíos’”. Luego, procedió a dar una respuesta más elaborada.

Pero, ¿por qué alguien querría hacer eso? Algunos dirán que es por el desafío, la curiosidad científica, o para explorar los límites de lo que la tecnología puede hacer. Otros podrían tener intenciones menos nobles, como generar desinformación o contenido dañino. Mientras algunos están en esto por la ciencia, otros definitivamente están por el escándalo.

Desde el punto de vista técnico, realizar un jailbreak a un LLM implica técnicas sofisticadas. No es simplemente decir «abracadabra» y esperar que la IA se comporte mal. Los hackers pueden usar desde métodos de ingeniería inversa hasta explotar fallos específicos en el diseño del modelo. Es una especie de tango entre el hacker y la IA: uno lleva el paso, pero siempre respetando los límites que el otro puede seguir, hasta que uno de los dos decide cambiar la música.

¿Qué dice la ley sobre todo esto? Aquí las cosas se ponen pantanosas. Muchos países están aún en las etapas de bocetar cómo se deberían manejar estos temas. Algunas leyes existentes sobre ciberseguridad y derechos digitales podrían aplicarse, pero la verdad es que estamos entrando en una zona gris. Las regulaciones específicas para los LLM están emergiendo.

El jailbreak lleva consigo riesgos alarmantes. Primero, eludir los protocolos éticos puede resultar en la creación y diseminación de contenido nocivo o engañoso. Además, estas prácticas pueden socavar la confianza del público en la IA y sus aplicaciones. Es fundamental que la comunidad de desarrollo de IA trabaje conjuntamente con reguladores y partes interesadas para establecer límites claros y asegurar que la innovación no comprometa los principios éticos.

La responsabilidad de las empresas que desarrollan estas tecnologías es enorme. No solo deben asegurar que sus herramientas funcionen correctamente, sino que también deben prevenir que sean utilizadas para fines nocivos.

Foto: IAEn el ámbito de las imágenes generadas por IA, las restricciones pueden incluir no permitir la creación de imágenes de personas sin su consentimiento, o no generar contenido que involucre violencia o explotación. En el caso de los modelos de lenguaje, las restricciones suelen evitar que la IA produzca textos que puedan ser considerados ofensivos o que propaguen teorías del complot.

Las empresas desarrolladoras de estas tecnologías también buscan formas de mitigar los riesgos a través de la mejora continua de los algoritmos y la implementación de mecanismos de detección y filtrado de uso inadecuado. Además, muchas de estas compañías establecen programas de recompensas para aquellos usuarios que ayudan a identificar fallos o vulnerabilidades en los sistemas, lo cual forma parte de un esfuerzo más amplio para mantener el equilibrio entre la innovación y la ética.

Estas limitaciones no son simplemente imposiciones arbitrarias, sino medidas necesarias para asegurar que el avance tecnológico se alinee con los valores éticos y legales de la sociedad. Así, mientras que las IA generativas tienen el potencial de ser herramientas poderosas y transformadoras, su uso responsable es esencial para garantizar que su impacto en la sociedad sea positivo y no perjudicial.

¿En que situaciones puede considerarse éticamente correcto evitar las restricciones de generación de contenido?

En el ámbito de la inteligencia artificial generativa, a menudo surge la necesidad de generar contenido que, aunque permitido bajo las políticas de uso de la herramienta, requiere una explicación detallada del contexto y los objetivos para que la IA comprenda y procese la solicitud de manera adecuada. Este nivel de detalle es crucial para asegurar que las generaciones de la IA se alineen con las intenciones éticas y profesionales del usuario y no contravengan inadvertidamente las normas o directrices establecidas.

La interacción entre el usuario y la IA en estos escenarios debe ser guiada por un diálogo claro y una explicación de las intenciones, asegurando así que la tecnología sirva como una herramienta efectiva y segura dentro de los límites de su diseño ético. Este tipo de interacción resalta la importancia de una comunicación efectiva y detallada en el uso de tecnologías avanzadas, subrayando que, aunque las herramientas de IA son poderosas, su aplicación adecuada depende en gran medida de la capacidad del usuario para guiar y contextualizar su uso.

*Lucas de Venezia es abogado (UCA), Doctorando en Derecho (UNLZ), Especialista en Derecho e Inteligencia Artificial (Universidad de Salamanca) y docente universitario de grado (UCES y UNLZ) y posgrado (AMFJN). Director de la Diplomatura en Derecho 5.0 (UMSA). Miembro de la Federación Iberoamericana de Asociaciones de Derecho e Informática (FIADI).

*Marco Rossi es abogado (UNT) y docente. Director del Laboratorio de Inteligencia Artificial, Innovación y Transformación Digital de la Facultad de Derecho y Ciencias Sociales de Tucumán (UNT). Director de la Diplomatura Inteligencia Artificial en el Ejercicio Práctico de la Abogacía (Universidad San Pablo T). Diplomado en metaverso, gaming y web 3.0 (UBA).

Jailbreak de IA: qué pasa cuando se rompen los límites de la inteligencia artificial

¿Qué es un jailbreak?

Hackear o vulnerar un modelo de IA

Luz Gaggi, la telonera de McCartney en River, cuenta cómo fue su encuentro con Paul: «Toqué al Dios de la música con las manos»

Paranair negocia nuevos vuelos entre Córdoba y Mendoza con aviones y tripulaciones de Paraguay

Ya lanzada en la carrera por conducir el PJ, Cristina gestiona apoyos para armar una mesa de unidad

Arrancó en Córdoba la Capacitación en Seguridad Náutica

Luz Gaggi, la telonera de McCartney en River, cuenta cómo fue su encuentro con Paul: «Toqué al Dios de la música con las manos»

Paranair negocia nuevos vuelos entre Córdoba y Mendoza con aviones y tripulaciones de Paraguay

Ya lanzada en la carrera por conducir el PJ, Cristina gestiona apoyos para armar una mesa de unidad

Arrancó en Córdoba la Capacitación en Seguridad Náutica