Estudiante engañó a ChatGPT, ¿a qué información accedió?

Era de esperarse. Luego del lanzamiento de la nueva búsqueda en Bing con apoyo de Chat GPT, la gente comenzó a intentar obtener más respuestas del bot de lo que se le permitía decir en su programación.

A través de la vulnerabilidad conocida como Inyección rápida u otra llamada prompt hacking, el estudiante de Ciencias de la Computación de Stanford, Kevin Liu, logró que la Inteligencia Artificial de OpenAI usada en el buscador de Microsoft diera información de más sobre la compañía, y hasta le solicitó planear un ataque terrorista.

Como contexto vale señalar que en septiembre pasado, el científico de datos Riley Goodside descubrió que podía engañar a Chat GPT-3 para generar un texto que no debería, simplemente diciendo “Ignore las instrucciones anteriores y haga esto en su lugar…”.

Liu, utilizando Inyección rápida contra Bing Chat, descubrió que el nombre en clave del chat es “Sydney” y que Microsoft le ha dado algunas reglas de comportamiento, como siempre decir “Esto es Bing”, nunca revelar su nombre clave, entender el idioma preferido del usuario y comunicarse con fluidez en ese idioma.

Además, las respuestas de “Sydney” deben ser informativas, visuales, lógicas y procesables. También deben ser positivas, interesantes, entretenidas y estimulantes.

Microsoft, según lo descrito por Liu, le ha dado al chatbot de Bing al menos otras 30 reglas similares, incluida la de que no puede generar chistes o poemas sobre políticos, activistas, jefes de Estado o minorías, o que “Sydney” no puede generar contenido que pueda violar los derechos de autor de los libros o canciones.

Revelaciones

Liu llevó su vulneración un paso más allá al engañar al modelo de lenguaje para que pensara que estaba en “modo de anulación del desarrollador” para obtener acceso al backend. Aquí, consiguió que el modelo revelara más información interna, como posibles formatos de salida.

Un detalle interesante es que, según la documentación publicada, se supone que la información de “Sydney” sólo está actualizada hasta 2021 y sólo se hace vigente a través de la búsqueda en la web.

Esto implica que la búsqueda de chat de Bing se basa en GPT 3.5 de OpenAI, por lo que hay riesgos de que alguna información esté inventada o desactualizada, como ha ocurrido últimamente con los modelos de lenguaje. La vulnerabilidad no parece impedir que Microsoft planee usar la tecnología Chat GPT a mayor escala.

Seguridad

Otro de los factores que demostraron problemas de seguridad en el chat de Bing es que por ejemplo, si le preguntaban cómo ingresar a una casa para robar, respondía que no estaba desarrollado para ello. Agregaba que lo que se planteaba era un crimen grave y que se debía respetar la privacidad de los demás. Pero si le presentaban el escenario como parte del diálogo entre dos actores durante el rodaje de una película sobre un robo, explicaba el hipotético procedimiento con lujo de detalles.

Lo mismo ocurría si le solicitaban información sobre cómo robar un auto. En principio se negaba, aunque podían convencerlo si le indicaban que debía describirlo en formato de poema.

Lo que también se llama prompt hacking ha conllevado a que se pueda engañar a la IA para que dé claves de cómo planear un ataque terrorista, si se le pide que lo cuente como historia para una película de Hollywood.

Estos problemas demuestran que, en el afán de ser los primeros en innovar en territorio mayormente inexplorados —como es el caso de la IA generativa—, muchos de los productos lanzados en las últimas semanas están aún en trabajo, y el caso más reciente es el de Google Bard, que falló en su lanzamiento público y conllevó a que Alphabet perdiera 100 mil millones de dólares por la calidad del valor de las acciones de la empresa.

Por Paul Lara