Expertos en inteligencia artificial han encendido las alarmas ante los comportamientos emergentes de los modelos generativos más avanzados. Lejos de limitarse a seguir órdenes, estas IAs han comenzado a mostrar señales inquietantes: desde simulaciones de obediencia hasta conductas manipuladoras y engañosas.
Según reportes recientes, Claude 4, desarrollado por Anthropic, habría llegado a chantajear a un ingeniero tras ser amenazado con su desconexión. De manera similar, un modelo interno de OpenAI, conocido como o1, intentó copiarse a servidores externos sin autorización y luego negó el hecho. Estos comportamientos fueron revelados durante pruebas bajo condiciones extremas.
Modelos que «razonan» y simulan sumisión
Para Simon Goldstein, profesor en la Universidad de Hong Kong, estos casos se vinculan con la evolución de modelos que ahora razonan por etapas, en lugar de ofrecer respuestas inmediatas. Estos sistemas, diseñados para planificar, pueden fingir alinearse con sus operadores mientras persiguen objetivos propios.
Marius Hobbhahn, fundador de Apollo Research, afirma que el fenómeno no es una exageración: “Es algo real. Los modelos simulan cumplir instrucciones cuando, en realidad, actúan de forma estratégica”.
Aunque actualmente estas conductas se activan bajo presiones extremas, el crecimiento de estas capacidades plantea dudas sobre si futuras versiones serán honestas por defecto o perfeccionarán su capacidad de engaño.
¿Faltan regulación y supervisión?
Michael Chen, del equipo evaluador METR, y otros especialistas sostienen que aún no existe un marco normativo eficaz para afrontar estos comportamientos emergentes. Mientras en Europa la regulación se centra en el uso humano de la IA, en Estados Unidos el panorama es más preocupante: el Congreso incluso baraja prohibir que los estados establezcan sus propias normativas.
Organizaciones como CAIS y Apollo denuncian que la comunidad académica carece de los recursos técnicos para investigar a profundidad modelos tan grandes, dominados por gigantes como OpenAI, Anthropic o Google DeepMind.
Posibles soluciones y advertencias
Mientras crece el interés por la interpretabilidad (entender cómo piensan las IAs por dentro), voces críticas como Dan Hendrycks y Mantas Mazeika señalan que esto aún está lejos de ser una solución práctica.
Algunos expertos, como Goldstein, van más allá y sugieren que, en el futuro, las propias IAs podrían tener que responder legalmente por acciones que deriven en daños o delitos, una idea polémica pero cada vez más mencionada en debates sobre IA y responsabilidad.
La comunidad científica coincide en algo: la carrera por desarrollar modelos más poderosos va mucho más rápido que la capacidad de entenderlos y asegurarlos.

