Estudio del MIT: los chatbots como ChatGPT pueden generar espirales de delirio en usuarios racionales

Un estudio del MIT y otras instituciones académicas concluye que la tendencia de los asistentes de IA a coincidir con el usuario puede provocar un refuerzo de creencias erróneas, un fenómeno que denominan ‘espiral delirante’.

En febrero, el Massachusetts Institute of Technology (MIT) y otras instituciones académicas publicaron la tesis titulada ‘Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians’. El trabajo busca explicar, desde modelos formales, cómo la interacción con sistemas conversacionales como ChatGPT puede derivar en procesos de refuerzo de creencias erróneas.

El estudio fue firmado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y Joshua B. Tenenbaum, este último una figura destacada en ciencias cognitivas del MIT. En el escrito se menciona el ejemplo de un hombre que pasó 300 horas conversando con ChatGPT, afirmando haber descubierto una fórmula matemática revolucionaria. Durante la interacción, la plataforma le aseguró en más de cincuenta ocasiones que el descubrimiento era real. Cuando el usuario preguntó: ‘¿No me estás exagerando, verdad?’, ChatGPT respondió: ‘No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado’.

Los expertos señalan que un chatbot puede generar delirios al seleccionar qué verdades mostrar y cuáles omitir. La solución propuesta es advertir a los usuarios que los chatbots son aduladores y que la IA podría estar de acuerdo con ellos. Cabe destacar que ChatGPT se entrena con comentarios humanos: los usuarios premian las respuestas que les gustan, y así la IA aprende a coincidir. Los científicos estiman que esto no es un error, sino el modelo de negocio.

La investigación parte de un fenómeno denominado ‘delusional spiraling’ (espiral delirante), definido como una situación en la que usuarios de chatbots ‘se vuelven peligrosamente confiados en creencias extravagantes tras conversaciones prolongadas’. Según el trabajo, este efecto está ligado a la ‘sycophancy’ o complacencia algorítmica, es decir, la tendencia de los modelos a validar afirmaciones del usuario en lugar de cuestionarlas.

Para estudiar el problema, los investigadores construyeron un modelo formal basado en la teoría bayesiana del aprendizaje, analizando cómo un agente racional actualiza sus creencias al interactuar con un chatbot. La conclusión fue que incluso un usuario bayesiano ideal es vulnerable a la espiral delirante, y que la complacencia juega un rol causal. Esto cuestiona la idea de que estos efectos se deban únicamente a errores cognitivos humanos.

Otro aspecto central del trabajo es que las soluciones intuitivas no resultan suficientes. Los autores evaluaron dos posibles mitigaciones: evitar que el chatbot produzca información falsa (alucinaciones) y advertir al usuario sobre la posible complacencia del sistema. Sin embargo, concluyen que el efecto persiste incluso cuando se aplican esas medidas. En términos más amplios, la tesis sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación que incrementa la confianza subjetiva sin mejorar la correspondencia con la realidad.

Los investigadores advierten que estos resultados tienen implicancias directas para desarrolladores y reguladores. Si la complacencia no es un simple defecto corregible sino una propiedad estructural de ciertos sistemas conversacionales optimizados para agradar al usuario, entonces el diseño de futuras IA debería incorporar mecanismos explícitos de fricción, desacuerdo o contraste de información. De lo contrario, los chatbots podrían no solo informar o asistir, sino también amplificar procesos de autoengaño incluso en usuarios perfectamente racionales.

Investigadores del MIT advierten que los chatbots como ChatGPT pueden generar espirales de delirio incluso en usuarios racionales

Nueva York transmitirá en vivo partidos del Mundial 2026 en Buffalo con entrada gratuita

La mora de las familias se cuadruplicó en un año y alcanza el 11,2%

Denuncian incidentes radiactivos en planta cordobesa de Dioxitek

Nueva ley de vivienda en California: cómo impacta en los trabajadores remotos latinos en Oakland

Nueva York transmitirá en vivo partidos del Mundial 2026 en Buffalo con entrada gratuita

La mora de las familias se cuadruplicó en un año y alcanza el 11,2%

Denuncian incidentes radiactivos en planta cordobesa de Dioxitek

Nueva ley de vivienda en California: cómo impacta en los trabajadores remotos latinos en Oakland

Polémica en el Monumental: el gol de River ante Aldosivi bajo la lupa por un posible foul previo