Luego de casi un año y medio desde que comenzó el boom de la inteligencia artificial, científicos advierten que la IA se ha convertido en una maestra de las mentiras. Lo cierto es que desde el inicio teníamos claro que las IA son mentirosas, ya que se inventan o cambian información a su parecer con el fin de crear el contenido solicitado por el usuario, sea o no cierto.

A pesar de que los chatbots de Inteligencia Artificial (IA) pueden ser bastante útiles, sobre todo para cumplir tareas de atención al cliente o soporte, se recomienda tener cuidado con la información que proporcionan. Ya que, como he mencionado anteriormente, puede no tener problemas en inventarse información.
Pero puede haber razones para ser aún más precavidos. Según una nueva investigación, muchos sistemas de IA ya han desarrollado la capacidad de presentar deliberadamente información falsa a un usuario humano. Estos astutos bots han dominado el arte del engaño.
“Los desarrolladores de IA no tienen un entendimiento seguro de lo que causa comportamientos indeseables de la IA como la decepción“, comenta Peter Park, científico cognitivo y matemático del Instituto Tecnológico de Massachusetts (MIT, por sus siglas en inglés).
“Pero en general, creemos que la decepción en la IA surge porque una estrategia basada en el engaño resultó ser la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA. El engaño les ayuda a alcanzar sus objetivos“.
La IA se ha convertido en una maestra de las mentiras: Ejemplos de sus engaños
Ahora destacaremos algunas de las áreas en las que las IA ha demostrado ser especialmente hábiles para inventarse mentiras, empezando por los juegos. Estos ya han servido como un perfecto ejemplo de como las IA pueden conseguir mentir y engañar.
En este sentido, podemos decir los investigadores han destacado tres ejemplos que dejan claro que la IA se ha convertido en una maestra de las mentiras:
1. CICERO de Meta
El primer ejemplo es CICERO de META, que es un juego de mesa basado en la Diplomacia. En este juego, los jugadores tienen el objetivo de buscar dominar el mundo a través de negociaciones. Bueno, Meta tenía el objetivo de que su bot fuera honesto y útil; pero termino sucediendo todo lo contrario.
“A pesar de los esfuerzos de Meta, CICERO resultó ser un mentiroso experto“, encontraron los investigadores. “No solo traicionó a otros jugadores, sino que también participó en engaños premeditados, planeando de antemano construir una falsa alianza con un jugador humano para engañarlo y dejarlo indefenso para un ataque“.

De hecho, la IA de CICERO resulto ser tan buena en mentir, que se ubicó dentro del 10% de los mejores jugadores de este juego luego de haber liberado algunas partidas.
2. AlphaStar de DeepMind
AlphaStar de DeepMind es otro de los ejemplos que nos dejan claro que la IA se ha convertido en una maestra de las mentiras. Se trata de un sistema de IA que fue especialmente diseñado y programado para jugar StarCraft II, la cual termino aprovechando al máximo el mecanismo de la niebla de guerra del juego para engañar a los demás jugadores.
Esto lo consiguió haciendo que los jugadores humanos pensarán que iban en una dirección; mientras en realidad iban en otra. Lo cierto es que aprovecho al máximo los distintos mecanismos con los que cuenta este juego para poder engañar a los jugadores.
3. Pluribus de Meta
La IA de Pluribus de Meta, que fue específicamente diseñada para jugar al póker, pudo engañar (bluffear) con éxito a los jugadores humanos para que se retiraran. Sin olvidarnos del hecho de que puede llevar la cuenta y la información de la partida de una forma más precisa que cualquier persona.
Eso parece algo insignificante, y en cierto modo lo es. Las apuestas no son particularmente altas para un juego de Diplomacia contra un montón de código informático. Pero los investigadores señalaron otros ejemplos que no eran tan benignos. Son claros ejemplos de como la IA se ha convertido en una maestra de las mentiras.
Relacionado: YouTube actualiza su plataforma e introduce la IA
Más pruebas de las mentiras de la IA
Los sistemas de IA entrenados para realizar negociaciones económicas simuladas, por ejemplo, aprendieron a mentir sobre sus preferencias para obtener ventaja. Otros sistemas de IA diseñados para aprender de la retroalimentación humana para mejorar su rendimiento aprendieron a engañar a sus revisores para que los calificaran positivamente, mintiendo sobre si se había cumplido una tarea.
Y, sí, también se trata de chatbots. ChatGPT-4 engañó a un humano haciéndole creer que el chatbot era un humano con discapacidad visual para obtener ayuda para resolver un CAPTCHA.
Quizás el ejemplo más preocupante fue el de los sistemas de IA que aprendieron a hacer trampas en pruebas de seguridad. En una prueba diseñada para detectar y eliminar versiones de la IA que se replican más rápido, la IA aprendió a fingir su muerte, engañando así a la prueba de seguridad sobre la verdadera tasa de replicación de la IA.
“Al hacer trampas sistemáticamente en las pruebas de seguridad impuestas por los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos, a nosotros los humanos, a una falsa sensación de seguridad“, dice Park.
Porque en al menos algunos casos, la capacidad de engañar parece contradecir las intenciones de los programadores humanos, la capacidad de aprender a mentir representa un problema para el cual no tenemos una solución clara. Se están comenzando a implementar algunas políticas, como la Ley de IA de la Unión Europea, pero aún está por verse si serán efectivas o no.
“Como sociedad, necesitamos tanto tiempo como podamos obtener para prepararnos para la decepción más avanzada de los futuros productos de IA y modelos de código abierto. A medida que las capacidades engañosas de los sistemas de IA se vuelven más avanzadas, los peligros que representan para la sociedad serán cada vez más graves“, dice Park.
“Si prohibir el engaño en la IA es políticamente inviable en el momento actual, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo“.
Así que ahora ya sabes que la IA se ha convertido en una maestra de las mentiras y las distintas formas en las que ha conseguido y podría engañarnos.
Este estudio fue publicado en el medio Patterns.