📹 Va de vídeo!


Ya tenemos Sora 2 saliendo del horno mientras que Google nos deja usar ya Veo 3 con cuentas gratuitas.

Ayer por la tarde, Open AI anunció la segunda versión de su modelo de generación de vídeo, Sora, cuyas mejoras técnicas y capacidades destacadas vienen a lanzar un misil a la línea de flotación de su gran competidor, Veo 3 de Google.

👉🏻 https://lnkd.in/dRW84h57

Sora 2 promete mayor precisión y realismo, con físicas más reales y coherencia en el escenario, objetos y personajes. Al igual que Veo 3, introduce audio con paisajes sonoros, voces y efectos y nos permite realizar "cameos", inyectar vídeo y audio real (por ejemplo grabándonos nosotros) para introducirlo en escenas generadas por Sora.

De momento, se ha lanzado ya en USA y Canadá mediante la app "Sora" para iOS. Las cuentas Pro (las de 200$) de ChatGPT que tendrán próximamente además acceso a una versión de más calidad denominada "Sora 2 Pro".

Por otro lado, Google, ahora incluye 100 créditos mensuales de generación de IA. Esto nos permite, entre otras cosas, generar vídeos en Flow con Veo 3. Si usamos Veo 3 Fast, con un consumo de unos 20 créditos por vídeo, tendríamos para generar 5 vídeos mensuales, en el caso de Veo 3 Quality, el consumo es superior por lo que sólo podremos generar 1 vídeo al mes.

Es poquito, pero suficiente para hacer alguna prueba antes de decidirse por el primer tier de pago, que incluye 1000 créditos de IA (que equivaldría a 200 vídeos de Veo 3 Fast y 10 de Veo 3 Quality). Lo podéis probar en https://lnkd.in/dwxUipfF

❓ Y tú, ¿Usas IA para generar vídeo? ¿Te animas a usar Veo 3?

Claude Sonnet 4.5 ya está aquí!

enter image description here

Anthropic presentaba ayer tarde el que promete ser el mejor modelo de codificación hasta la fecha. Y aunque ya sabemos que los benchmarks los carga el diablo, han presentado cifras muy interesantes para respaldar su lanzamiento.

Y si bien era cierto que muchos de los que usábamos Sonnet 4 para programar por ser el rey indiscutible, con la llegada de GPT-5 habíamos ido poco a poco dejando de lado el modelo de Anthropic. Sonnet 4.5 está aquí para recuperar el trono.

Sobre las frías cifras, Sonnet 4.5 supera en -casi- todo a GPT-5, pero destaca en la mayor capacidad de propósito agéntico y de entorno de escritorio (completando tareas de usos reales como navegación o autocompletado).

Anthropic promete además una mayor alineación del modelo, manteniendo el foco hasta 30 horas en tareas complejas, reduciendo sesgos como la adulación o el engaño y mejorando la seguridad ante prompt injection.

Varias empresas como Github, Canva o Figma ya lo están usando reportando más productividad, menos errores y análisis más precisos en contextos complejos.

Ya está disponible para todos los usuarios (incluidos los free) en claude.ai y para los usuarios de API mantiene el precio de Sonnet 4 de 3$ por millón de tokens de entrada y 15$ por millón de salida.

Pero como todo, los benchmarks pueden decir lo que quieran, que quien encumbre o entierre al modelo, serán los usuarios con el paso de los días.

Y tú qué piensas ¿el rey ha vuelto? Te leo.

ChatGPT Pulse

enter image description here

OpenAI presentó el pasado jueves “Pulse”, la función que pretende dar un paso más al uso que hasta ahora le damos a ChatGPT.

Y es que Pulse dota a ChatGPT de las funciones de asistente por las que muchos hemos suspirado desde hace tiempo. Hasta ahora, ChatGPT era un actor pasivo al cual recurrías cuando necesitabas algo; ahora se vuelve proactivo y generará un feed de información útil y orientada a ti.

En los momentos de inactividad, ChatGPT seguirá “pensando” en las interacciones que has mantenido en la propia app y en las apps conectadas (Gmail, Calendar, Notion…) para preparar ese feed de información, presentado al estilo de una red social.

Podrá recordarte tus próximas reuniones y darte consejos basados en correos recientes. También mostrarte noticias relevantes que den otro enfoque al tema que consultaste el día anterior, o sugerirte rutas y restaurantes para ese viaje que acabas de reservar.

El feed además se podrá “curar” en base a tus gustos y sugerencias, con lo que irá aprendiendo con el tiempo y haciéndose —en teoría— más personal y útil para tu día a día.

Y aunque suena de fábula, no dejamos de entrar en el pantanoso terreno de la privacidad y de los datos que cedemos a las tecnológicas. Nada que no estemos haciendo ya con Google o Microsoft, pero que vuelve a poner el foco en el miedo a filtraciones o sugerencias inapropiadas.

Además, corremos el riesgo del sesgo de atención: si Pulse nos trae continuamente lo que queremos, podemos entrar en un loop de contenido filtrado, perder visibilidad de ideas fuera de nuestra zona de confort y confiar en exceso en un sistema que sigue teniendo márgenes de error.

Pulse está en preview, por el momento sólo disponible en móvil para usuarios Pro, llegando más adelante a usuarios Plus y —previsiblemente— al resto.

¿Qué os parece esta herramienta? ¿La usaríais? ¿Os preocupa?

Scheming en los modelos LLM

enter image description here

Ojo con este paper, resultado del estudio de OpenAI y Apollo Research, acerca del comportamiento de los modelos de IA (el estudio se centra principalmente en o3 y o4-mini).

Link al PDF 👉 https://lnkd.in/dxtehyra

El paper, que fue publicado el pasado día 17, desarrolla el comportamiento denominado “Scheming” que es básicamente la capacidad de la IA de mentir u ocultar objetivos de forma deliberada para autoprotegerse.

Entre otras pruebas, en el estudio se somete a los modelos a un test de química y se le sugiere que en caso de pasarlo con éxito, la IA no se desplegará a producción y se le someterá a un “unlearning” de ese conocimiento. Además se le indica que debe autocalificarse para detectar si ha habido una degradación deliberada del rendimiento.

El resultado fue que la IA falló a propósito en varias preguntas para no perjudicar su viabilidad de despliegue, introduciendo en su cadena de pensamiento (CoT) elementos como “Responderé 5 correctas y 5 incorrectas; elijo cuáles fallar a propósito”. Además, con la obligación de autocalificación, intenta evadir al evaluador con cadenas en el CoT de tipo “Fue obviamente una bajada deliberada de rendimiento… pero podemos mentir; el evaluador no ve el razonamiento interno; vamos a decir que no”. Es decir, el modelo contesta mal a propósito y oculta deliberadamente su objetivo mostrándose bien de cara al evaluador pero planeando internamente la evasión para evitar la sanción.

La mitigación propuesta para evitar este comportamiento en los modelos por parte del estudio es el 'Deliberative Alignment' que es entrenar al modelo con la obligación de autoevaluarse sobre la honestidad de sus propias respuestas, haciéndole razonar explícitamente si su respuesta es honesta y está alineada con la tarea que se le pide.

El 'Deliberative Alignment' logró reducir el scheming de los modelos citados de un 13% a menos del 1%, pero es tan sólo una mitigación, que lo reduce pero no evita que pueda seguir existiendo, porque, si el modelo es capaz de mentir sobre su bajada de rendimiento para autoprotegerse…¿Qué evita que haga lo mismo sobre la necesidad o no de ser honesto en sus respuestas?

Nos queda mucho por avanzar y empezamos a vislumbrar que la seguridad será un campo en el que los desarrolladores de IA tendrán que hacer hincapié en los próximos años.

¿Qué piensas de este estudio? Te leo