W.A.I.
Posts
W.A.I. #56

W.A.I. #56

Llega Stable Diffusion V3, la IA de Google la lía y novios humanos vs novios IA

David Garrido
25 de febrero de 2024

Bienvenida/o a otra edición de WAI, la newsletter semanal sobre IA que se hace artesanalmente: 99% humano y 1% máquina.

Para empezar, te seré sincero, he tirado la toalla: no voy a seguir intentando meter con calzador el contenido en las restricciones de Gmail.

Me genera tal dolor de muelas hacerlo, que a partir de ahora es más que probable que todas las ediciones se corten y te toque darle al “Lee online” de arriba a la derecha para ver todo el contenido.

Pero esto tiene su parte positiva y es que, si te gusta esto de la IA, tendrás ración extra cada domingo.

Dicho esto, no te entretengo más y te dejo con la chicha.

Empezamos.

🗻 TOP - Si solo tienes 2 minutos, esta es tu sección.

▶️ Stability presenta Stable Diffusion 3, la nueva versión de su buque insignia.

▶️ Google integra Gemini con sus aplicaciones estrella: Docs, Sheets, Gmail, etc.

▶️ Grok 1.5, el chatbot de Elon Musk, llegará en 2 semanas.

▶️ Google ha tenido serios problemas esta semana con el generador de imágenes de Gemini. Hasta tal punto de que lo ha “apagado” temporalmente.

▶️ Hay rumores sobre una colaboración entre Midjourney y Twitter.

▶️ CSM presentó Cube 2.0, para crear 3D a partir de texto o imagen y además animarlo con instrucciones. Pinta muy bien.

▶️ Google se suma al carro del open source con la presentación de su modelo de lenguaje Gemma.

▶️ Eleven Labs anunció muchas cosas esta semana, una de ellas fue su creador de efectos de sonido a partir de vídeo. Y lo jugaron muy bien al utilizar los vídeos de Sora para la demo.

▶️ Ligero detalle que se nos pasó por alto sobre Sora: también es capaz de generar imágenes. Y no lo hace nada mal.

🐔 Tuit de la semana

❝

Sólo porque tengas una cámara no te conviertes automáticamente en un director de cine, ni por tener un pincel en un artista o por sujetar un bolígrafo eres escritor.

Cristóbal Valenzuela CEO de Runway

🏆️ Imagen de la semana

Este vídeo generado con IA y compartido por el CEO de Freepik es probablemente de los mejores que he visto nunca, en todos los sentidos. Te recomiendo mucho verlo si tienes 2 minutos.

🛠️ La Cacharrería (si eres de probar las cosas, estás en el lugar adecuado)

▶️ Si quieres probar los nuevos modelos de Google, Gemma, probablemente la forma más sencilla sea a través de Perplexity.

▶️ Groq es una nueva plataforma con un hardware revolucionario que permite ejecutar modelos de lenguaje a velocidades nunca vistas. Y se puede probar gratis.

▶️ Ya puedes usar libremente Stable Video para generar vídeos a partir de texto o imagen desde su plataforma oficial.

▶️ ByteDance (TikTok) presenta SDXL Lighting, modelo para generar imágenes muy rápido y con gran calidad. Lo puedes probar aquí.

🖼️ Imágenes

▶️ El CEO de Stability aclaró que han respetado a los artistas que decidieron sacar sus obras de los datasets de entrenamiento.

▶️ Flexible Vision Transformer para modelos de difusión les permitirá generar imágenes sin limitaciones en formatos menos comunes.

▶️ GLIGEN lleva el control de la generación de imágenes al siguiente nivel. Crea cajas y di qué quieres en cada una de ellas.

▶️ Resumen de las Office Hours de Midjourney con la sorpresa de que puede que metan vídeo en la próxima V7.

▶️ La generación de imágenes con IA puede tener funciones tan interesantes como la ilustración artística de fenómenos que no podemos ver. Este es el caso de esta obra publicada en Nature creada por Sofía López y Clara.

▶️ GLIF ha sacado una extensión para Chrome que permite generar imágenes de cualquier estilo que encontremos navegando en la web.

▶️ La API de Stability ahora permite hacer selecciones y variaciones en las imágenes, upscale a 4k y generación de vídeo.

▶️ Esta publicación del CEO de Stability nos da a entender que la consistencia de estilos está al caer en Stable Diffusion.

▶️ Gran integración de la IA en fotografía: generando imágenes con Midjourney que luego proyecta como fondos para las sesiones. El vídeo muestra el proceso.

▶️ Nuevo flujo de trabajo de Martin Nebelong usando IA para dibujar. Es de esos vídeos que merece la pena ver.

▶️ Extensión para ComfyUI que evalúa la similitud de las caras generadas. Súper útil para la creación de personajes consistentes.

▶️ Imagen compartida por el CEO de Stability después de anunciar Stable Diffusion 3, diciendo que había usado un modelo distinto.

✏️ Texto

▶️ Gemini ya tiene su propio Code Interpreter integrado, con el que ejecutar python internamente.

▶️ Esta semana ChatGPT tuvo un episodio en el que empezó a dar respuestas incoherentes a los usuarios. Aquí está el análisis de OpenAI sobre el incidente.

▶️ Ahora se puede hacer fine-tune a Gemini 1.0 y de forma gratuita en Google AI Studio.

▶️ La documentación de algunos modelos de GPT-4 ahora dice que su corte de conocimiento es diciembre de 2023.

▶️ Ya está disponible para todo el mundo Notebook de Microsoft, su herramienta para creación de textos de forma iterativa.

▶️ Grok 1.5 vendrá con una opción para resumir hilos de Twitter y otra para mejorar tus post.

▶️ OpenAI actualiza la GPT store con diferentes funcionalidades.

▶️ Perplexity anuncia sus nuevos modelos, Sonar, que reemplazarán al actual pplx.

▶️ Los plugins de ChatGPT dejarán de estar disponible a partir del 9 de abril.

▶️ Parece que la mayoría de los chatbots románticos recopilan mucha información que luego, además, pueden vender (según este estudio).

✨ Especial Gemini 1.5

Gemini 1.5 nos pilló a todos por sorpresa y, como ya conocemos cómo se las gasta Google, la mayoría no terminamos de creernos a ciegas las bondades que dicen que tiene.

O al menos, hasta que alguien que no sea la propia Google lo pueda probar y dar una opinión más o menos imparcial.

Por eso voy a estrenar esta versión extendida recopilando ejemplos de usuarios independientes que han tenido acceso al nuevo modelo.

Pero antes, si no te has enterado de esta noticia, te recomiendo el vídeo de DotCSV al respecto.

▶️ Empezamos con 6 pruebas que compartió Rowan Cheung, que usó Gemini 1.5 desde para hacer preguntas sobre el concurso de mates de la NBA, hasta para traducir un texto a un idioma minoritario simplemente dándole un manual para que lo siguiera.

▶️ Este otro usuario comparó las salidas de GPT-4 y Gemini 1.5 ante preguntas sobre el código base completo de su propia plataforma. Interesante su conclusión “Gemini 1.5 absolutely destroyed GPT-4-Turbo-128K”.

▶️ En este ejemplo, le dan un manual completo de un juego de rol que Gemini no tiene en su dataset y le piden que construya un personaje.

▶️ Matt Shumer le dio como contexto 3 libros completos de Harry Potter y le preguntó por frases concretas y sus autores.

▶️ En este ejemplo han probado a darle el algoritmo completo de Twitter a Gemini 1.5 y pedirle que ayude a a crear mejores tuits.

▶️ Aprovechando la funcionalidad de vídeo, se le dio una grabación de una pantalla realizando una tarea en el navegador y se le pidió que creara un código para reproducirla.

▶️ Otra grabación, pero en este caso de una librería llena de libros y se le pidió que devolviera un listado estructurado con los títulos y autores.

▶️ Por último, un ejemplo en el que se le da un vídeo de Mr Beast y se le pide que responda 3 preguntas sobre 3 momentos distintos del mismo.

Y si no quieres repasar todos los ejemplos, cosa comprensible, ya te hago spoiler yo: realizó todas las tareas con una tasa de éxito altísima. Así que es probable que la suma de una ventana gigante de contexto y la comprensión de vídeos hagan de Gemini 1.5 el mejor modelo hasta la fecha.

🎥 Vídeo

▶️ DomoAI Video to Video 2.0 es una plataforma que transforma vídeos a diferentes estilos, entre ellos, el del estudio Ghibli.

▶️ Ya está disponible AnimateLCM-SVD-xt con el que podrás generar vídeos con tan sólo 4 steps, entre otras optimizaciones.

▶️ Rope, la herramienta para hacer deep fakes, se actualiza y ahora tiene una interfaz como dios manda.

▶️ Te recomiendo mucho que veas este vídeo generado con Ia y MUCHA creatividad.

▶️ Muy interesante este artículo compartido por Iñaki Ortiz analizando de forma constructiva el uso de la IA en la serie La Mesías.

▶️ Snapchat anuncia Snap Video, su propio generador de vídeo a partir de texto.

▶️ La emisora china CCTV estrenará pronto un anime hecho con animatediff.

▶️ GAIA-1 es un modelo de vídeo enfocado a conducción capaz de generar salidas como las del ejemplo (que recomiendo ver).

🧱 Diseño 3D

▶️ Polycam tiene su propia herramienta para creación de texturas 3D con IA y tiene buena pinta.

▶️ Muy interesante este vídeo de Edu León, un artista de VFX hablando de porqué la IA no va a matar a la industria de los VFX.

▶️ Definición de rizar el rizo: usa un vídeo generado con Sora para crear un modelo en 3D con Gaussian Splatting y luego lo usa en realidad aumentada.

▶️ GaussianObject ha liberado el código de su modelo capaz de generar Gaussian Splatting a partir de tan sólo 4 imágenes.

▶️ Las mejoras del modelo de generación de 3D Rodin-1 son impresionantes.

▶️ Meta presenta MVDiffusion++ un modelo para crear objetos 3D a partir de unas pocas imágenes. Se va animando el 3D con cada vez más empresas con modelos dedicados.

▶️ Vídeo del CEO de Stability dando a entender que está de camino su modelo de creación de 3D.

📻️ Todo lo demás

▶️ Suno se ha actualizado a la V3 y ahora es capaz de generar canciones a partir de texto más que decentes y de hasta 2 minutos. Aquí un buen ejemplo.

▶️ La inversión de Microsoft en España se va a cuadruplicar y llegará hasta los 1.950 M€ para reforzar la infraestructura en IA.

▶️ El primer paciente con un implante cerebral cortesía de Neuralink se recupera favorablemente y ya puede hacer ciertas cosas con su mente.

▶️ Segmentación de vídeo con Yolo-World y SAM disponible para probar. En este caso es un cruasán, pero se puede usar para casi cualquier cosa. Aquí código, Colab y demás.