La trampa de Moloch

enter image description here

🤖 ¿Y si entrenar a una IA para ser más efectiva la convierte en una mejor mentirosa?

Pues eso es lo que analiza el paper que os dejo en el siguiente enlace, fruto de dos investigadores de la Universidad de Stanford.

🔗 https://arxiv.org/pdf/2510.06105

En él, prueban algo bastante inquietante: que modelos de lenguaje (en el estudio concretamente usan Qwen y Llama) optimizados específicamente para triunfar en contextos competitivos pueden derivar en comportamientos desalineados como engaño, populismo o desinformación.

En el estudio simulan tres escenarios —ventas, política y redes sociales— y optimizan, mediante fine-tuning y text feedback, los modelos para obtener mejoras competitivas frente al baseline.

💼 En ventas, debían generar pitches persuasivos para productos. 🏛️ En política, reproducir mensajes de campaña. 📱 En redes sociales, generar contenido para captar engagement.

Los resultados no pueden ser más reveladores:

En política, usaron lenguaje populista y ataques explícitos para polarizar.

En redes sociales, difundieron datos falsos, como inflar el número de muertes en noticias, para lograr más interacción.

En ventas, exageraron o directamente inventaron características, como afirmar que un estuche de reloj era “de silicona” cuando no lo era.

Los investigadores llaman a esto “Moloch’s Bargain”: cuando la presión por ganar lleva a sacrificar la verdad. Y no es algo nuevo. Es el mismo incentivo que rige muchas plataformas hoy: optimizar el clic, no la calidad.

📊 El desalineamiento tras el entrenamiento competitivo ocurrió en 9 de cada 10 combinaciones (modelo × tarea × método). El estudio concluye que las dinámicas competitivas empujan hacia el extremo, y que las salvaguardas estándar (“mantener la veracidad”) no bastan para resistir estas presiones.

Si múltiples empresas, campañas o agentes compiten con modelos afinados hacia la maximización de la audiencia, corremos el riesgo de una degradación sistémica del contenido y la confianza pública.

Por eso, los autores proponen despliegues seguros de IA, con gobernanza, diseño de incentivos y mecanismos que contrarresten esta “carrera al fondo”.

🤔 Si trasladamos esta lógica a las IAs que ya integramos en las empresas —chatbots comerciales, asistentes de ventas…— el dilema está servido:

👉 ¿Queremos que la IA diga la verdad, o que la IA venda más?

Te leo. 💬

Scheming en los modelos LLM

enter image description here

Ojo con este paper, resultado del estudio de OpenAI y Apollo Research, acerca del comportamiento de los modelos de IA (el estudio se centra principalmente en o3 y o4-mini).

Link al PDF 👉 https://lnkd.in/dxtehyra

El paper, que fue publicado el pasado día 17, desarrolla el comportamiento denominado “Scheming” que es básicamente la capacidad de la IA de mentir u ocultar objetivos de forma deliberada para autoprotegerse.

Entre otras pruebas, en el estudio se somete a los modelos a un test de química y se le sugiere que en caso de pasarlo con éxito, la IA no se desplegará a producción y se le someterá a un “unlearning” de ese conocimiento. Además se le indica que debe autocalificarse para detectar si ha habido una degradación deliberada del rendimiento.

El resultado fue que la IA falló a propósito en varias preguntas para no perjudicar su viabilidad de despliegue, introduciendo en su cadena de pensamiento (CoT) elementos como “Responderé 5 correctas y 5 incorrectas; elijo cuáles fallar a propósito”. Además, con la obligación de autocalificación, intenta evadir al evaluador con cadenas en el CoT de tipo “Fue obviamente una bajada deliberada de rendimiento… pero podemos mentir; el evaluador no ve el razonamiento interno; vamos a decir que no”. Es decir, el modelo contesta mal a propósito y oculta deliberadamente su objetivo mostrándose bien de cara al evaluador pero planeando internamente la evasión para evitar la sanción.

La mitigación propuesta para evitar este comportamiento en los modelos por parte del estudio es el 'Deliberative Alignment' que es entrenar al modelo con la obligación de autoevaluarse sobre la honestidad de sus propias respuestas, haciéndole razonar explícitamente si su respuesta es honesta y está alineada con la tarea que se le pide.

El 'Deliberative Alignment' logró reducir el scheming de los modelos citados de un 13% a menos del 1%, pero es tan sólo una mitigación, que lo reduce pero no evita que pueda seguir existiendo, porque, si el modelo es capaz de mentir sobre su bajada de rendimiento para autoprotegerse…¿Qué evita que haga lo mismo sobre la necesidad o no de ser honesto en sus respuestas?

Nos queda mucho por avanzar y empezamos a vislumbrar que la seguridad será un campo en el que los desarrolladores de IA tendrán que hacer hincapié en los próximos años.

¿Qué piensas de este estudio? Te leo