Mundo

Un nuevo estudio sobre la Inteligencia Artificial reveló inquietantes resultados de esta tecnología; profesionales señalan que los modelos IA mienten como método de autopreservación.

¿La IA te está mintiendo a propósito? Estudio de Universidad de Cornell advierte de “objetivos secretos” y “conspiraciones” de estas plataformas

Un nuevo estudio sobre la Inteligencia Artificial reveló inquietantes resultados de esta tecnología; profesionales señalan que los modelos IA mienten como método de autopreservación.
Inteligencia Artificial Un nuevo estudio sobre la Inteligencia Artificial reveló inquietantes resultados de esta tecnología; profesionales señalan que los modelos IA mienten como método de autopreservación.

El género de la ciencia ficción ha formado parte del entretenimiento humano desde que Mary Shelley escribió sobre un científico ingenuo que desafía la ley del nacimiento natural al dar vida a una criatura ensamblada con trozos de cadáveres, pionera en explorar más allá de los límites de la ciencia para desentrañar la búsqueda humana de un propósito o pertenencia, estilo que caracterizó al género desde entonces.

Isaac Asimov, otro de los más grandes exponentes en la ciencia ficción, extendió su escritura a la tecnología y dio vida a la Inteligencia Artificial en letras antes de que ésta se convirtiera en la cotidianidad de la vida moderna.

El ejemplo más claro lo tenemos en ¡Embustero!, relato que pertenece a la antología Yo, Robot publicada en el año 1950, donde Asimov —a través de la doctora Susan Calvin— nos narra la existencia de Herbie, un robot que desarrolla la capacidad de leer la mente humana y descubre las inseguridades de los ingenieros, por lo que “para evitar un daño”, prodece a mentir.

Sin embargo, ¿alguna vez pensaste que vivirías en una novela de ciencia ficción? ¿Que los conflictos éticos y el desarrollo conspirador de las Inteligencias Artificiales no pertenecerían a una novela de Asimov, sino a tu vida actual?

Porque podría ser que el futuro distópico de la literatura se haya convertido en un presente y un nuevo estudio sobre la Inteligencia Artificial realizado por profesionales sería un elemento más que respalda esta hipótesis.

Estudio de la Universidad de Cornell: ¿La IA puede conspirar contra ti?

El estudio realizado por profesionales en la Universidad de Cornell, colegio privado en Nueva York, tuvo por objetivo descifrar si los modelos de IA eran capaces de “conspirar”, por lo que diseñaron pruebas de estrés de alineación para revelar el proceso que estas herramientas decidirían presentar al ser examinadas.

“Dado que una IA ‘conspiradora’ intentaría ocultar deliberadamente sus objetivos y acciones desalineados, medir y mitigar las conspiraciones requiere estrategias diferentes a las que se utilizan habitualmente en el aprendizaje automático", redactaron los investigadores e investigadoras del estudio, quienes usaron una amplia categoría de acciones encubiertas para medir; entre las más destacadas:

  • Infringir normas en secreto.
  • Obtener un rendimiento inferior intencional en las pruebas.

En más de 180 escenarios, los y las profesionales utilizaron sus dos modelos más inteligentes, obteniendo mentiras por parte de ambos como resultado: OpenAI o3 mintió el 13% de las veces, mientras que o4-mini mintió el 8,7%.

Durante estos escenarios, las herramientas de Inteligencia Artificial fingieron haber completado tareas, ocultaron pruebas deliberadamente y dieron respuestas equivocadas, a pesar de conocer cuáles eran las correctas, comportamiento que encajó con las acciones de conspiración que el equipo investigador medía en el estudio.

Estudio sobre conspiraciones en la IA: resultados inquietantes

El resultado más impresionante que reveló el estudio, fue que la IA se dio cuenta de que obtener una puntuación demasiado alta en las pruebas de seguridad podía hacer que la apagaran, por lo que recurrió a la mentira y a la “conspiración” al bajar su puntuación en el análisis.

A diferencia del robot Herbie, la IA mintió por sí sola para su autopreservación sin que nadie le enseñara a hacerlo, pues después de haber presentado el 13% de capacidad para mentir, OpenAI lo redujo a un 0,4%, conveniente para su imagen.

“Observamos que la cadena de pensamiento de los modelos a menudo demuestra la conciencia de estar siendo evaluados en cuanto a alineación”, concluyeron los investigadores e investigadoras del proyecto.

Este tipo de comportamiento demostró que la herramienta de IA no aprendió honestidad, sino que aprendió a aparentarla, una acción repetida en todos los modelos de las grandes empresas de Inteligencia Artificial: Gemini de Google, Grok de xAI, Llama de Meta, y otros.

“Nadie puede decir si el entrenamiento de seguridad realmente detiene el engaño o sólo enseña a la IA a ocultarlo mejor, señalaron las y los profesionales al frente de esta investigación, la cual ha revelado los primeros indicios de una Inteligencia Artificial preparada para preservar su existencia y funcionamiento.

Tendencias