W.A.I. #56

Llega Stable Diffusion V3, la IA de Google la lía y novios humanos vs novios IA

Bienvenida/o a otra edición de WAI, la newsletter semanal sobre IA que se hace artesanalmente: 99% humano y 1% máquina.

Para empezar, te seré sincero, he tirado la toalla: no voy a seguir intentando meter con calzador el contenido en las restricciones de Gmail.

Me genera tal dolor de muelas hacerlo, que a partir de ahora es más que probable que todas las ediciones se corten y te toque darle al “Lee online” de arriba a la derecha para ver todo el contenido.

Pero esto tiene su parte positiva y es que, si te gusta esto de la IA, tendrás ración extra cada domingo.

Dicho esto, no te entretengo más y te dejo con la chicha.

Empezamos.

Contenidos de hoy

🗻 TOP - Si solo tienes 2 minutos, esta es tu sección.

▶️ Eleven Labs anunció muchas cosas esta semana, una de ellas fue su creador de efectos de sonido a partir de vídeo. Y lo jugaron muy bien al utilizar los vídeos de Sora para la demo.

🐔 Tuit de la semana

Sólo porque tengas una cámara no te conviertes automáticamente en un director de cine, ni por tener un pincel en un artista o por sujetar un bolígrafo eres escritor.

Cristóbal Valenzuela CEO de Runway

🏆️ Imagen de la semana

🛠️ La Cacharrería (si eres de probar las cosas, estás en el lugar adecuado)

🖼️ Imágenes

▶️ Nuevo flujo de trabajo de Martin Nebelong usando IA para dibujar. Es de esos vídeos que merece la pena ver.

▶️ Extensión para ComfyUI que evalúa la similitud de las caras generadas. Súper útil para la creación de personajes consistentes.

✏️ Texto

Especial Gemini 1.5

Gemini 1.5 nos pilló a todos por sorpresa y, como ya conocemos cómo se las gasta Google, la mayoría no terminamos de creernos a ciegas las bondades que dicen que tiene.

O al menos, hasta que alguien que no sea la propia Google lo pueda probar y dar una opinión más o menos imparcial.

Por eso voy a estrenar esta versión extendida recopilando ejemplos de usuarios independientes que han tenido acceso al nuevo modelo.

Pero antes, si no te has enterado de esta noticia, te recomiendo el vídeo de DotCSV al respecto.

▶️ Empezamos con 6 pruebas que compartió Rowan Cheung, que usó Gemini 1.5 desde para hacer preguntas sobre el concurso de mates de la NBA, hasta para traducir un texto a un idioma minoritario simplemente dándole un manual para que lo siguiera.

▶️ Este otro usuario comparó las salidas de GPT-4 y Gemini 1.5 ante preguntas sobre el código base completo de su propia plataforma. Interesante su conclusión “Gemini 1.5 absolutely destroyed GPT-4-Turbo-128K”.

▶️ En este ejemplo, le dan un manual completo de un juego de rol que Gemini no tiene en su dataset y le piden que construya un personaje.

▶️ Matt Shumer le dio como contexto 3 libros completos de Harry Potter y le preguntó por frases concretas y sus autores.

▶️ En este ejemplo han probado a darle el algoritmo completo de Twitter a Gemini 1.5 y pedirle que ayude a a crear mejores tuits.

▶️ Aprovechando la funcionalidad de vídeo, se le dio una grabación de una pantalla realizando una tarea en el navegador y se le pidió que creara un código para reproducirla.

▶️ Por último, un ejemplo en el que se le da un vídeo de Mr Beast y se le pide que responda 3 preguntas sobre 3 momentos distintos del mismo.

Y si no quieres repasar todos los ejemplos, cosa comprensible, ya te hago spoiler yo: realizó todas las tareas con una tasa de éxito altísima. Así que es probable que la suma de una ventana gigante de contexto y la comprensión de vídeos hagan de Gemini 1.5 el mejor modelo hasta la fecha.

📻️ Todo lo demás

▶️ Suno se ha actualizado a la V3 y ahora es capaz de generar canciones a partir de texto más que decentes y de hasta 2 minutos. Aquí un buen ejemplo.

▶️ Segmentación de vídeo con Yolo-World y SAM disponible para probar. En este caso es un cruasán, pero se puede usar para casi cualquier cosa. Aquí código, Colab y demás.

🎓️ Formación y tutoriales

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

¡Saludos!