W.A.I. #25

Música y vídeo con texto ✅ y una ciudad administrada por IA

Bienvenida/o a otra edición de WAI, llegamos a las bodas de plata con este número 25.

A pesar de no haber grandes pelotazos informativos esta semana, mi sensación es que en estos últimos días ha habido mucho movimiento de ese que no hace demasiado ruido en medios, pero que luego tiene gran impacto real en forma de herramientas útiles en el día a día.

Estoy especialmente contento porque hay un montón de novedades en torno al 3D, NeRFs y vídeo. Y no porque me gusten especialmente estas disciplinas (que también), sino porque creo que están viviendo un momento parecido al de Dall-E con las imágenes hace un año y que el acelerón que veremos tras el verano puede significar, por fin, el cambio necesario para integrarlas en producción real.

Dicho esto, creo que ha quedado muy equilibrada esta edición y espero que la disfrutes.

Empezamos.

🗻 TOP 10 - Si solo tienes 2 minutos, esta es tu sección.

▶️ Ezra ha recibido la autorización FDA para lanzar el primer MRI de cuerpo completo en 30 minutos (con IA). Su plan es detectar el cáncer temprano en todo el mundo y con esta autorización ha conseguido el paso 2 de su plan: hacer un escaneo más asequible.

▶️ Meta ha publicado MusicGen, un modelo de creación de música a partir de texto. En el enlace se comparte un Colab para poder probarlo.

▶️ La ciudad de Yokosuka en Japón ha adoptado oficialmente el chatbot de inteligencia artificial ChatGPT en sus operaciones administrativas después de un exitoso periodo de prueba de un mes. Menudo precedente se sienta aquí.

▶️ Tafi Avatar es una herramienta de creación de personajes 3D a partir de texto, listos para integrar en otras plataformas como Unreal o Unity.

▶️ Este lunes fue la WWDC de Apple y, aunque anunciaron sus nuevas gafas de realidad mixta, poca mención (explícita) hubo a la IA.

▶️ ¿Y si te dijera que los NeRFS ahora se pueden editar? Pues eso es lo que parece que han conseguido con NeRFshop.

 🐔 Tuit de la semana

▶️ ¿Y por qué pongo este tuit aquí? Porque aunque no soy el público objetivo y personalmente este tipo de programas me parecen una *****, el hecho de que se empiece a utilizar la IA a estos niveles de producción y por parte de empresas como Netflix, abre la puerta a otros usos. Esperemos que mejores.

🏆️ Imagen de la semana

▶️ O vídeo, una vez más. Uso de generative fill de Photoshop para calmar el TOC.

🖼️ Imágenes

▶️ Google anunció la semana pasada su modelo de transferencia de estilos StyleDrop pero parece que podemos acercarnos mucho a esos resultados con las herramientas actuales. Juan Pablo de Miguel lleva compartiendo ejemplos en Twitter varios días y lucen así de bien.

▶️ La semana pasada no traje el resumen de las office hours de Midjourney, así que hoy toca ración doble. Aquí las de la semana anterior y aquí las de la actual. MUY INTERESANTE.

▶️ ClipDrop presenta Uncrop, su herramienta de outpainting para, supongo, competir un poco con el generative fill de Photoshop.

▶️ En FlairAI han actualizado su original uso de ControlNet y ahora se pueden incorporar elementos humanos en sus imágenes de producto.

▶️ ForfrAI anuncia Prompter, una plataforma para la creación y compartición de prompts.

▶️ Diffusion Self-Guidance. Otro modelo de Google que añade más control a la creación y modificación de imágenes.

▶️ Ciara Rowles publica la actualización de su TemporalKit para dar consistencia a los vídeos generados con Stable Diffusion.

✏️ Texto

▶️ Bard ahora puede ejecutar de fondo código para mejorar las respuestas a los usuarios. Una especie de mini code interpreter como tiene OpenAI.

▶️ Instagram podría estar trabajando en un chatbot según una filtración de esta semana.

▶️ Aunque ya salió hace tiempo, GPT4All sigue mejorando y añadiendo modelos. Recordemos que es un modelo de lenguaje que puedes ejecutar en local desde tu ordenador sin conexión a internet.

▶️ InterML es un nuevo modelo de lenguaje entrenado con 104b de parámetros que superaría a ChatGPT en algunos test. La mala noticia es que a pesar de ser multi-idioma, parece que es más efectivo en chino.

▶️ LucentumAI, el asistente para profesionales del derecho, ya está disponible.

▶️ La aplicación de noticias Artifact ha lanzado una nueva función que utiliza inteligencia artificial para reescribir los titulares de los artículos que han sido identificados como clickbait.

🧱 Diseño / 3D

▶️ Drag3D. ¿Recuerdas la demo del modelo de manipulación de imágenes que permitía arrastrar puntos y modificar la perspectiva, las expresiones o abrir la boca a un león? Pues esa misma idea aplicada a 3D.

▶️ Este experimento puede parecer un desastre de primeras, pero es el inicio de un flujo de trabajo en el que podremos generar un personaje 3D a partir de texto y animarlo en 5 minutos. Sólo queda que mejoren las herramientas.

▶️ Econ es un modelo que permite la recreación de modelos 3D a partir de una foto. Y ahora tenemos un Colab para poder probarlo.

▶️ Zibra AI anuncia su herramienta para generación de assets 3D listos para integrar ingame a partir de un vídeo.

🎥 Vídeo

▶️ ColorDiffuser. “Colorización” y “re-colorización” de vídeos usando modelos de difusión pre-entrenados.

▶️ AngryPenguin comparte un Colab para probar Potat-1, el modelo open source de text2vídeo.

▶️ Increíble uso por parte de Martin Haerlin de la herramienta GEN-1 de Runway.

📻️ Todo lo demás

▶️ Por qué la IA salvará el mundo. Este ha sido un artículo muy compartido esta semana por tener una aproximación diferente a los agoreros de la IA y porque viene de Marc Adreessen, cofundador de Netscape entre otros.

▶️ ¿Está matando la IA la industria de la fotografía de stock? Según un análisis de datos presentado por Stock Performer, la respuesta es no.

▶️ Meta anuncia sus planes de incluir IA en todas sus plataformas. No es que sea una sorpresa, pero al menos ahora es oficial.

▶️ El bueno de Mark Zuckerberg pasa de nuevo por el podcast de Lex Fridman.

🎓️ Formación y tutoriales

▶️ Framer enseña los pasos que ha seguido para crear esta animación, utilizando Midjourney, Generative Fill y After Effects.

▶️ Recursos avanzados para ingeniería de prompts. Si lo básico se te queda pequeño, aquí tienes técnicas como Chain of Thoughts o herramientas como Langchain para subir al siguiente nivel.

📜 Papers, please.

▶️ Emergent Correspondence. En un reciente estudio, se ha demostrado que la correspondencia entre imágenes puede emerger de forma natural a través de los modelos de difusión de imágenes, sin necesidad de supervisión explícita.

▶️ VideoComposer. Modelo que vendría a ser un equivalente a lo que hace ControlNet con las imágenes, pero aplicado a vídeo.

▶️ Tracking Everything Everywhere All at Once. Nuevo método llamado OmniMotion para estimar de manera precisa y consistente el movimiento en videos. El vídeo lo explica mucho mejor.

🍅 Salseo

▶️ La campaña electoral americana que se nos viene encima va a ser curiosa como poco. A estas alturas ya van varios usos de la IA para manipular la opinión pública. La última, estas imágenes de Trump abrazando a Fauci.

▶️ Este artículo de Forbes, se insinúa que Emad Mostaque (CEO de Stability, creadores de Stable Diffusion) tiene un histórico de exageraciones sobre las capacidades de su empresa y herramientas.

▶️ Y Emad escribió esta entrada en su blog en respuesta, para intentar defenderse.

▶️ Sam Altman recogiendo cable después de decirle a un asistente de su charla en la India que, básicamente, no tenía ninguna opción de competir con OpenAI y que ni lo intentara.

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

¡Saludos!