- W.A.I.
- Posts
- W.A.I. #56
W.A.I. #56
Llega Stable Diffusion V3, la IA de Google la lía y novios humanos vs novios IA
Bienvenida/o a otra edición de WAI, la newsletter semanal sobre IA que se hace artesanalmente: 99% humano y 1% máquina.
Para empezar, te seré sincero, he tirado la toalla: no voy a seguir intentando meter con calzador el contenido en las restricciones de Gmail.
Me genera tal dolor de muelas hacerlo, que a partir de ahora es más que probable que todas las ediciones se corten y te toque darle al “Lee online” de arriba a la derecha para ver todo el contenido.
Pero esto tiene su parte positiva y es que, si te gusta esto de la IA, tendrás ración extra cada domingo.
Dicho esto, no te entretengo más y te dejo con la chicha.
Empezamos.
Contenidos de hoy
🗻 TOP - Si solo tienes 2 minutos, esta es tu sección.
▶️ CSM presentó Cube 2.0, para crear 3D a partir de texto o imagen y además animarlo con instrucciones. Pinta muy bien.
▶️ Eleven Labs anunció muchas cosas esta semana, una de ellas fue su creador de efectos de sonido a partir de vídeo. Y lo jugaron muy bien al utilizar los vídeos de Sora para la demo.
▶️ Ligero detalle que se nos pasó por alto sobre Sora: también es capaz de generar imágenes. Y no lo hace nada mal.
🐔 Tuit de la semana
Sólo porque tengas una cámara no te conviertes automáticamente en un director de cine, ni por tener un pincel en un artista o por sujetar un bolígrafo eres escritor.
🏆️ Imagen de la semana
Este vídeo generado con IA y compartido por el CEO de Freepik es probablemente de los mejores que he visto nunca, en todos los sentidos. Te recomiendo mucho verlo si tienes 2 minutos.
🛠️ La Cacharrería (si eres de probar las cosas, estás en el lugar adecuado)
🖼️ Imágenes
▶️ Gran integración de la IA en fotografía: generando imágenes con Midjourney que luego proyecta como fondos para las sesiones. El vídeo muestra el proceso.
▶️ Nuevo flujo de trabajo de Martin Nebelong usando IA para dibujar. Es de esos vídeos que merece la pena ver.
▶️ Extensión para ComfyUI que evalúa la similitud de las caras generadas. Súper útil para la creación de personajes consistentes.
✏️ Texto
✨ Especial Gemini 1.5
Gemini 1.5 nos pilló a todos por sorpresa y, como ya conocemos cómo se las gasta Google, la mayoría no terminamos de creernos a ciegas las bondades que dicen que tiene.
O al menos, hasta que alguien que no sea la propia Google lo pueda probar y dar una opinión más o menos imparcial.
Por eso voy a estrenar esta versión extendida recopilando ejemplos de usuarios independientes que han tenido acceso al nuevo modelo.
Pero antes, si no te has enterado de esta noticia, te recomiendo el vídeo de DotCSV al respecto.
▶️ Empezamos con 6 pruebas que compartió Rowan Cheung, que usó Gemini 1.5 desde para hacer preguntas sobre el concurso de mates de la NBA, hasta para traducir un texto a un idioma minoritario simplemente dándole un manual para que lo siguiera.
▶️ Este otro usuario comparó las salidas de GPT-4 y Gemini 1.5 ante preguntas sobre el código base completo de su propia plataforma. Interesante su conclusión “Gemini 1.5 absolutely destroyed GPT-4-Turbo-128K”.
▶️ En este ejemplo, le dan un manual completo de un juego de rol que Gemini no tiene en su dataset y le piden que construya un personaje.
▶️ Matt Shumer le dio como contexto 3 libros completos de Harry Potter y le preguntó por frases concretas y sus autores.
▶️ En este ejemplo han probado a darle el algoritmo completo de Twitter a Gemini 1.5 y pedirle que ayude a a crear mejores tuits.
▶️ Aprovechando la funcionalidad de vídeo, se le dio una grabación de una pantalla realizando una tarea en el navegador y se le pidió que creara un código para reproducirla.
▶️ Otra grabación, pero en este caso de una librería llena de libros y se le pidió que devolviera un listado estructurado con los títulos y autores.
▶️ Por último, un ejemplo en el que se le da un vídeo de Mr Beast y se le pide que responda 3 preguntas sobre 3 momentos distintos del mismo.
Y si no quieres repasar todos los ejemplos, cosa comprensible, ya te hago spoiler yo: realizó todas las tareas con una tasa de éxito altísima. Así que es probable que la suma de una ventana gigante de contexto y la comprensión de vídeos hagan de Gemini 1.5 el mejor modelo hasta la fecha.
🎥 Vídeo
▶️ Ya está disponible AnimateLCM-SVD-xt con el que podrás generar vídeos con tan sólo 4 steps, entre otras optimizaciones.
🧱 Diseño 3D
▶️ Muy interesante este vídeo de Edu León, un artista de VFX hablando de porqué la IA no va a matar a la industria de los VFX.
▶️ Definición de rizar el rizo: usa un vídeo generado con Sora para crear un modelo en 3D con Gaussian Splatting y luego lo usa en realidad aumentada.
▶️ Meta presenta MVDiffusion++ un modelo para crear objetos 3D a partir de unas pocas imágenes. Se va animando el 3D con cada vez más empresas con modelos dedicados.
📻️ Todo lo demás
▶️ Suno se ha actualizado a la V3 y ahora es capaz de generar canciones a partir de texto más que decentes y de hasta 2 minutos. Aquí un buen ejemplo.
▶️ Segmentación de vídeo con Yolo-World y SAM disponible para probar. En este caso es un cruasán, pero se puede usar para casi cualquier cosa. Aquí código, Colab y demás.
🎓️ Formación y tutoriales
🍅 Salseo
Despedida
Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?
Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.
Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.
También puedes copiar y compartir directamente este enlace
¡Saludos!