W.A.I.
Posts
W.A.I. #25

W.A.I. #25

Música y vídeo con texto ✅ y una ciudad administrada por IA

David Garrido
11 de junio de 2023

Bienvenida/o a otra edición de WAI, llegamos a las bodas de plata con este número 25.

A pesar de no haber grandes pelotazos informativos esta semana, mi sensación es que en estos últimos días ha habido mucho movimiento de ese que no hace demasiado ruido en medios, pero que luego tiene gran impacto real en forma de herramientas útiles en el día a día.

Estoy especialmente contento porque hay un montón de novedades en torno al 3D, NeRFs y vídeo. Y no porque me gusten especialmente estas disciplinas (que también), sino porque creo que están viviendo un momento parecido al de Dall-E con las imágenes hace un año y que el acelerón que veremos tras el verano puede significar, por fin, el cambio necesario para integrarlas en producción real.

Dicho esto, creo que ha quedado muy equilibrada esta edición y espero que la disfrutes.

Empezamos.

🗻 TOP 10 - Si solo tienes 2 minutos, esta es tu sección.

▶️ Ezra ha recibido la autorización FDA para lanzar el primer MRI de cuerpo completo en 30 minutos (con IA). Su plan es detectar el cáncer temprano en todo el mundo y con esta autorización ha conseguido el paso 2 de su plan: hacer un escaneo más asequible.

▶️ Meta ha publicado MusicGen, un modelo de creación de música a partir de texto. En el enlace se comparte un Colab para poder probarlo.

▶️ Runway libera su modelo de generación de vídeo a partir de texto, GEN-2.

▶️ La ciudad de Yokosuka en Japón ha adoptado oficialmente el chatbot de inteligencia artificial ChatGPT en sus operaciones administrativas después de un exitoso periodo de prueba de un mes. Menudo precedente se sienta aquí.

▶️ LTM-1 es un prototipo de modelo de texto que permite hasta 5 millones de tokens de contexto.

▶️ Adobe anuncia Adobe Express, su herramienta gratuita de diseño y edición online con integración en Adobe Firefly.

▶️ Tafi Avatar es una herramienta de creación de personajes 3D a partir de texto, listos para integrar en otras plataformas como Unreal o Unity.

▶️ Google Cloud anuncia la disponibilidad general de su plataforma de inteligencia artificial generativa Vertex AI.

▶️ Este lunes fue la WWDC de Apple y, aunque anunciaron sus nuevas gafas de realidad mixta, poca mención (explícita) hubo a la IA.

▶️ ¿Y si te dijera que los NeRFS ahora se pueden editar? Pues eso es lo que parece que han conseguido con NeRFshop.

🐔 Tuit de la semana

▶️ ¿Y por qué pongo este tuit aquí? Porque aunque no soy el público objetivo y personalmente este tipo de programas me parecen una *****, el hecho de que se empiece a utilizar la IA a estos niveles de producción y por parte de empresas como Netflix, abre la puerta a otros usos. Esperemos que mejores.

La inteligencia artificial se pone al servicio del salseo en #FalsoAmor, donde 5 parejas tendrán que decidir si lo que ven es real o deep fake. El reality, con Raquel Sánchez Silva, llega el 6 de julio.
— Netflix España (@NetflixES)
2:00 PM • Jun 8, 2023

🏆️ Imagen de la semana

▶️ O vídeo, una vez más. Uso de generative fill de Photoshop para calmar el TOC.

El caso de uso de la inteligencia artificial que todos esperábamos y que convencerá a los críticos:
arreglar las fotos que nos producen tremendo TOC
— monos estocásticos (@monospodcast)
6:28 AM • Jun 9, 2023

🖼️ Imágenes

▶️ Google anunció la semana pasada su modelo de transferencia de estilos StyleDrop pero parece que podemos acercarnos mucho a esos resultados con las herramientas actuales. Juan Pablo de Miguel lleva compartiendo ejemplos en Twitter varios días y lucen así de bien.

Después de la charla con @natanielruizg, me animo a dejar por aquí el primer sample de la formula 1Style-RT. He usado los mismos prompts de ejemplo que en #styledrop de Google Research por seguir la misma diversidad de objetos. Me sigue pareciendo increíble lo bien que funciona.
— Juan Pablo dMiguelm (@dmiguelm)
1:56 AM • Jun 7, 2023

▶️ La semana pasada no traje el resumen de las office hours de Midjourney, así que hoy toca ración doble. Aquí las de la semana anterior y aquí las de la actual. MUY INTERESANTE.

▶️ ClipDrop presenta Uncrop, su herramienta de outpainting para, supongo, competir un poco con el generative fill de Photoshop.

▶️ En FlairAI han actualizado su original uso de ControlNet y ahora se pueden incorporar elementos humanos en sus imágenes de producto.

▶️ ForfrAI anuncia Prompter, una plataforma para la creación y compartición de prompts.

▶️ Diffusion Self-Guidance. Otro modelo de Google que añade más control a la creación y modificación de imágenes.

🔴 MÁS CONTROL GENERANDO IMGs
Todo el mundo hablando del inpainting del Photoshop, pero eso es muy 2022...
Pronto muchas de estas herramientas nos permitirán modificar imágenes y vídeos de forma súper natural, tal y como este nuevo trabajo de Google nos demuestra! ⬅️⬇️➡️⬆️
— Carlos Santana (@DotCSV)
9:29 AM • Jun 2, 2023

▶️ Adobe está tan segura de que sus modelos no infringen el copyright que pagará las posibles facturas legales derivadas de su uso.

▶️ Ciara Rowles publica la actualización de su TemporalKit para dar consistencia a los vídeos generados con Stable Diffusion.

✏️ Texto

▶️ Bard ahora puede ejecutar de fondo código para mejorar las respuestas a los usuarios. Una especie de mini code interpreter como tiene OpenAI.

▶️ Instagram podría estar trabajando en un chatbot según una filtración de esta semana.

▶️ Aunque ya salió hace tiempo, GPT4All sigue mejorando y añadiendo modelos. Recordemos que es un modelo de lenguaje que puedes ejecutar en local desde tu ordenador sin conexión a internet.

▶️ InterML es un nuevo modelo de lenguaje entrenado con 104b de parámetros que superaría a ChatGPT en algunos test. La mala noticia es que a pesar de ser multi-idioma, parece que es más efectivo en chino.

▶️ Microsoft ofrecerá modelos de GPT de OpenAI a clientes gubernamentales en la nube.

▶️ Consigue tu tutor de matemáticas para niños con Synthesis (y un poco de IA).

▶️ LucentumAI, el asistente para profesionales del derecho, ya está disponible.

▶️ Alibaba ha comenzado a lanzar su tecnología de estilo ChatGPT.

▶️ La aplicación de noticias Artifact ha lanzado una nueva función que utiliza inteligencia artificial para reescribir los titulares de los artículos que han sido identificados como clickbait.

🧱 Diseño / 3D

▶️ Captura de objetos 3D desde tu propio dispositivo iPhone .

▶️ Drag3D. ¿Recuerdas la demo del modelo de manipulación de imágenes que permitía arrastrar puntos y modificar la perspectiva, las expresiones o abrir la boca a un león? Pues esa misma idea aplicada a 3D.

▶️ Este experimento puede parecer un desastre de primeras, pero es el inicio de un flujo de trabajo en el que podremos generar un personaje 3D a partir de texto y animarlo en 5 minutos. Sólo queda que mejoren las herramientas.

🚀 Buckle up folks!
Today, we're going on an adventure from AI Generated Character to 3D Animations in under 5 minutes!
Let's make our own AI animated characters! 👇
#AI#3DAnimation
— AP (@angrypenguinPNG)
8:00 PM • Jun 4, 2023

▶️ Econ es un modelo que permite la recreación de modelos 3D a partir de una foto. Y ahora tenemos un Colab para poder probarlo.

▶️ Zibra AI anuncia su herramienta para generación de assets 3D listos para integrar ingame a partir de un vídeo.

▶️ Estudio sobre el uso de herramientas generativas de imagen con IA en profesionales de la creación de videojuegos.

🎥 Vídeo

▶️ ColorDiffuser. “Colorización” y “re-colorización” de vídeos usando modelos de difusión pre-entrenados.

▶️ AngryPenguin comparte un Colab para probar Potat-1, el modelo open source de text2vídeo.

▶️ Increíble uso por parte de Martin Haerlin de la herramienta GEN-1 de Runway.

Imagine what’s coming! 👏 Gen-2
Source: Martin Haerlin 🙏
— Daniel Getachew 🇪🇹 (@DaniDpx)
2:49 PM • Jun 8, 2023

📻️ Todo lo demás

▶️ Los chatbots pierden dinero cada vez que los usas.

▶️ Por qué la IA salvará el mundo. Este ha sido un artículo muy compartido esta semana por tener una aproximación diferente a los agoreros de la IA y porque viene de Marc Adreessen, cofundador de Netscape entre otros.

▶️ La historia detrás de LAION, el conjunto de datos detrás de Stable Diffusion.

▶️ ¿Está matando la IA la industria de la fotografía de stock? Según un análisis de datos presentado por Stock Performer, la respuesta es no.

▶️ Meta anuncia sus planes de incluir IA en todas sus plataformas. No es que sea una sorpresa, pero al menos ahora es oficial.

▶️ El bueno de Mark Zuckerberg pasa de nuevo por el podcast de Lex Fridman.

🎓️ Formación y tutoriales

▶️ Framer enseña los pasos que ha seguido para crear esta animación, utilizando Midjourney, Generative Fill y After Effects.

It only took me 2 DAYS to create this beautiful Lofi animation 🔥🔊
Bringing AI pictures to life is way easier than you think.
EVERYONE can do it.
These are the 8 steps you should follow 👇
— Framer 🇱🇹 (@0xFramer)
7:33 PM • Jun 6, 2023

▶️ Recursos avanzados para ingeniería de prompts. Si lo básico se te queda pequeño, aquí tienes técnicas como Chain of Thoughts o herramientas como Langchain para subir al siguiente nivel.

▶️ Google ha publicado 9 cursos sobre IA generativa.

▶️ Kalson comparte un prompt para crear personajes como este:

▶️ Desde OpenAI han actualizado sus recursos para creación de prompts y alguna de sus guías de uso.

▶️ Cómo entrenar tus propios embeddings en Stable Diffusión con textual inversion.

▶️ Y como alternativa, guía para entrenar un LoRA en Stable Diffusion.

📜 Papers, please.

▶️ Emergent Correspondence. En un reciente estudio, se ha demostrado que la correspondencia entre imágenes puede emerger de forma natural a través de los modelos de difusión de imágenes, sin necesidad de supervisión explícita.

▶️ VideoComposer. Modelo que vendría a ser un equivalente a lo que hace ControlNet con las imágenes, pero aplicado a vídeo.

▶️ Tracking Everything Everywhere All at Once. Nuevo método llamado OmniMotion para estimar de manera precisa y consistente el movimiento en videos. El vídeo lo explica mucho mejor.

"Tracking Everything Everywhere All at Once" is a very nice work. The visualizations are particularly impressive. They must be computing camera stabilization and applying it to the tracks. Very good idea, because raw pixel-coordinate trajectories do not look as cool as this!
— Adam W. Harley (@AdamWHarley)
6:16 PM • Jun 9, 2023

🍅 Salseo

▶️ La campaña electoral americana que se nos viene encima va a ser curiosa como poco. A estas alturas ya van varios usos de la IA para manipular la opinión pública. La última, estas imágenes de Trump abrazando a Fauci.

▶️ Este artículo de Forbes, se insinúa que Emad Mostaque (CEO de Stability, creadores de Stable Diffusion) tiene un histórico de exageraciones sobre las capacidades de su empresa y herramientas.

▶️ Y Emad escribió esta entrada en su blog en respuesta, para intentar defenderse.

▶️ Sam Altman recogiendo cable después de decirle a un asistente de su charla en la India que, básicamente, no tenía ninguna opción de competir con OpenAI y que ni lo intentara.

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

https://wai-newsletter.beehiiv.com/subscribe

¡Saludos!