John Searle y la Habitación China

enter image description here

📚 Este fin de semana leí la noticia de que el pasado día 17 falleció John Searle, filósofo estadounidense, conocido por su famoso experimento de la 'Habitación China'.

💡 Dicho experimento, publicado en 1980, nació como crítica al test de Turing y se convirtió en uno de los argumentos más fuertes contra la idea de que la Inteligencia Artificial pudiera pensar genuinamente, aún incluso si ésta llegaba a igualar o superar la inteligencia humana.

En su experimento, Searle describe a una persona encerrada en una habitación sin conocimiento previo de chino a la cual se le facilita un completo manual, en su idioma, con reglas precisas para manipular sinogramas chinos.

Desde fuera, un hablante nativo introduce preguntas en chino a través de una rendija. Dentro, la persona consulta el manual y devuelve las respuestas correctas siguiendo las reglas fijadas.

📥 Desde fuera parece que “la habitación” entiende chino. Pero en realidad, la persona dentro no comprende ni una palabra: solo manipula símbolos formales.

⚙️ El mensaje de Searle era claro: manipular sintaxis no equivale a comprender semántica. Y para él, esa semántica era indispensable en el pensamiento genuino.

🔀 Hoy, si miramos los modelos actuales de lenguaje (GPT, Claude, LLama...), la metáfora sigue viva: manipulan tokens estadísticamente sin noción de “significado”. Sólo predicen la siguiente palabra según patrones. Aquí Searle tendría munición: los LLM no entienden más de lo que la habitación entiende chino.

🔧 La diferencia: los modelos actuales no siguen reglas rígidas ni un “libro”. Los pesos de la red neuronal se ajustan durante el entrenamiento. No hay manual, sino un sistema que se reconfigura con la experiencia que le proporcionan los datasets, algo más parecido al aprendizaje humano que a aplicar instrucciones fijas.

🧠 Y quizá la clave esté en ver el sistema completo y no el token aislado. Igual que una neurona sola no piensa, pero el conjunto de neuronas genera mente, el sistema completo de IA produce respuestas coherentes, creativas y con contexto.

Los modelos actuales ya no solo interpretan texto: “ven”, “oyen” y “hablan” gracias a la multimodalidad. Se conectan al mundo, asocian símbolos con experiencias. En ese cruce entre percepción y lenguaje puede estar naciendo un tipo de 'comprensión funcional'. Si es simulación o conciencia es difícil de saber.

💬 Y tú, ¿qué opinas? ¿Entender es sólo producir respuestas coherentes o hay algo más detrás? ¿Crees que la IA moderna sigue dentro de la habitación o estamos abriendo la puerta? Te leo!

ChatGPT dentro de Minecraft?


Si como yo sois aficionados a Minecraft, estaréis al tanto de los cientos de proyecto absurdamente maravillosos que se han generado dentro de este juego de tipo sandbox con bloques.

Usando redstone - un conjunto de items y bloques que permiten simular electricidad y lógica - se han creado dentro del juego, calculadoras, Gameboys, máquinas de turing...hasta se creó Minecraft dentro de Minecraft!

Pero lo que vi ayer es absolutamente loco: ChatGPT dentro de Minecraft!

📼 Os recomiendo ver el vídeo, sólo para haceros una idea del monstruo y del trabajo que lleva hacer semejante obra de ingeniería dentro del juego.

Bueno, primero de todo vamos a ser precisos. Lo que se ha emulado no es ChatGPT, es un transformer en miniatura, un modelo de 5M de parámetros (GPT-3 por ejemplo ya tenía 175.000M), un embedding de 240, vocabulario de 1920 tokens, 6 capas y un contexto de 64 tokens. Unas cifras ridículas para cualquier LLM incluso de hace años. Los pesos se cuantizaron para ocupar menos (8 bits la mayoría, algunos a 18 o 24 bits) y se guardaron en cientos de ficheros que se tradujeron a bloques de Minecraft.

El monstruo que se construyó dentro del juego, tarda unas 2 horas en generar una respuesta usando aceleración MCHPRS generando respuestas muy simples con frases muy cortas en inglés. A velocidad normal es técnicamente imposible de usar.

Evidentemente la hazaña no está en la practicidad si no en haber demostrado que, aunque diminuto (microscópico comparado incluso con los LLM más antiguos) se puede hacer funcionar un LLM dentro de Minecraft.

Por esos locos que pierden horas de sueño con estas frikadas, sólo por que se puede hacer! 🥂

Muy buen fin de semana!!

El enlace original al canal del autor: https://www.youtube.com/watch?v=VaeI9YgE1o8

Scheming en los modelos LLM

enter image description here

Ojo con este paper, resultado del estudio de OpenAI y Apollo Research, acerca del comportamiento de los modelos de IA (el estudio se centra principalmente en o3 y o4-mini).

Link al PDF 👉 https://lnkd.in/dxtehyra

El paper, que fue publicado el pasado día 17, desarrolla el comportamiento denominado “Scheming” que es básicamente la capacidad de la IA de mentir u ocultar objetivos de forma deliberada para autoprotegerse.

Entre otras pruebas, en el estudio se somete a los modelos a un test de química y se le sugiere que en caso de pasarlo con éxito, la IA no se desplegará a producción y se le someterá a un “unlearning” de ese conocimiento. Además se le indica que debe autocalificarse para detectar si ha habido una degradación deliberada del rendimiento.

El resultado fue que la IA falló a propósito en varias preguntas para no perjudicar su viabilidad de despliegue, introduciendo en su cadena de pensamiento (CoT) elementos como “Responderé 5 correctas y 5 incorrectas; elijo cuáles fallar a propósito”. Además, con la obligación de autocalificación, intenta evadir al evaluador con cadenas en el CoT de tipo “Fue obviamente una bajada deliberada de rendimiento… pero podemos mentir; el evaluador no ve el razonamiento interno; vamos a decir que no”. Es decir, el modelo contesta mal a propósito y oculta deliberadamente su objetivo mostrándose bien de cara al evaluador pero planeando internamente la evasión para evitar la sanción.

La mitigación propuesta para evitar este comportamiento en los modelos por parte del estudio es el 'Deliberative Alignment' que es entrenar al modelo con la obligación de autoevaluarse sobre la honestidad de sus propias respuestas, haciéndole razonar explícitamente si su respuesta es honesta y está alineada con la tarea que se le pide.

El 'Deliberative Alignment' logró reducir el scheming de los modelos citados de un 13% a menos del 1%, pero es tan sólo una mitigación, que lo reduce pero no evita que pueda seguir existiendo, porque, si el modelo es capaz de mentir sobre su bajada de rendimiento para autoprotegerse…¿Qué evita que haga lo mismo sobre la necesidad o no de ser honesto en sus respuestas?

Nos queda mucho por avanzar y empezamos a vislumbrar que la seguridad será un campo en el que los desarrolladores de IA tendrán que hacer hincapié en los próximos años.

¿Qué piensas de este estudio? Te leo