W.A.I. #12

GPT-4, Midjourney v5 y ¿Stable Difussion v3?

W.A.I. #12

Bienvenido/a una vez más a la newsletter que se propone la bendita locura de resumir todo lo que ha ocurrido con la Inteligencia Artificial en la última semana y contarlo sin hacer uso de ella.

Estos días han movido ficha algunos de los grandes translánticos de la IA: Midjourney y OpenAI. Parece que Stability anda agitando las aguas también. Diría que se vienen nuevas versiones de nuestras herramientas favoritas.

Pero no sólo ellos se han movido esta semana, también Google ha publicado una gran cantidad de papers muy interesantes. Y de papers quería yo hablar, porque sé que están al final y son más densos de leer, pero hazme caso en esto, es como asomarse a una bola de cristal y ver el futuro.

La cantidad de modelos, métodos e investigaciones que aparecen cada día en este mundo es tremenda y poder ver lo que se nos viene en los próximos meses (o semanas) no tiene precio.

También quería comentarte en esta introducción que la IA se está expandiendo a una velocidad tremenda. Lo que parecía un pequeño nicho, está tocando cada vez más partes de nuestro día a día y ejemplo de ello son programas como South Park, John Oliver o Iker Jimenez haciéndose eco de herramientas como ChatGPT.

Luego podríamos entrar en si con mejor o peor acierto, pero vaya, siempre nos quedará DotCSV.

No me enredo más, que son las 3:30 a.m. y uno quiere irse a dormir.

¡Empezamos!

📍 ÍNDICE - Echa un vistazo al contenido de hoy

  • GPT-4

  • Midjourney v5

  • Papers nuevos de Google

  • VFX revolucionada con la IA

  • La IA se vuelve mainstream

  • Prueba cualquier versión de Stable Difussion en Collab

  • Estudios de fotografía que no existen

🔍️ El caso

En la edición de hoy no voy a desarrollar mucho, principalmente porque no tengo información suficiente para hacerlo ni para valorarlo. Pero sí me gustaría compartir el caso de Claire Silver, bien conocida en la comunidad por sus creaciones con herramientas apoyadas en IA.

En este hilo ella misma intenta explicar el desenlace de una situación que comenzó con el anuncio de una exhibición de su trabajo en el Museo del Louvre de París.

Por una serie de causas, finalmente no va a darse esa exposición y lo que iba a ser un hito para el arte generativo se queda en nada por ahora.

🗻 TOP - Si solo tienes 2 minutos, esta es tu sección.

▶️ Parece que hay numerosos rumores sobre la publicación de GPT-4 la próxima semana.

▶️ Midjourney v5 ya está en la casilla de salida. Esta semana han habilitado un sistema de votaciones con imágenes previas de esa versión. Si eres usuario de pago puedes curiosear aquí.

▶️ Ojo con esto porque ya está habiendo timos usando la IA para engañar a la gente. En este caso por clonado de voz.

▶️ Emad, el boss de Stability, publicó anoche en Twitter una petición de prompts para… ¿probar una versión nueva de Stable Difussion?

▶️ Ya puedes probar todos los chatsbots integrados en Poe, de Quora, en cualquier plataforma. Incluído Claude, de Anthropic. Y gratis.

▶️ Esta semana Wonderdynamics han revolucionado el panorama con la presentación de su herramienta para VFX. Mejor ver que contar. Y aquí su artículo en TechCrunch.

▶️ Abrevia.me te permite generar una breve descripción sobre ti usando tu usuario de twitter, recopilando tus mensajes e interacciones. La historia de este proyecto además es muy interesante porque su creador ha ido compartiendo las interioridades y cómo ha llevado la explosión que ha tenido. Aquí entrevista en Xataka

▶️ Empathic: una aplicación de IA que traduce las emociones de las personas sin comunicación verbal. El objetivo es mejorar la comunicación y el bienestar de estas personas y sus cuidadores.

▶️ John Oliver habla en su programa sobre la IA. Esto nos puedes dar una idea de cómo de popular se está volviendo también para aquellos que no tienen la cabeza metida en este mundillo.

 🐔 Tuit de la semana

🖼️ Imágenes

▶️ Deepagency.com.Otra plataforma más de Danny. En esta ocasión, un estudio fotográfico con modelos que no existen, generados con IA.

▶️ No hay semana en la que Nick no tenga algo interesante que compartir. En esta ocasión, diseños de zapatillas nike imaginando colaboraciones de todo tipo.

▶️ Vídeo explorando y explicando Offset Noise.

▶️ Thibaud está entrenando una versión de ControlNet y Stable Diffusion 2.1

▶️ Ebsynth utility para automatic 1111. Es el programa usado para hacer la imagen de la semana y de momento el que mejores resultados da en video.

▶️ Aunque creo que la herramienta está abandonada por su creador, estos días tuvo gran repercusión este método para desvelar los efectos de photoshop en portadas famosas.

▶️ Extensión de Latent Copuple para Automatic 1111. Y para los que esto les suena a chino, es otro método para controlar dónde sale cada objeto dentro de Stable Difussion.

▶️ Mage.space: Plataforma para crear imagenes que integra Controlnet e instruct pix2pix

▶️ GLIGEN, un nuevo paper para controlar dónde colocar los objetos en Stable Difussion. Y está ya disponible su código y demo.

▶️ La portada de Vogue Singapur usa varias modelos generadas con IA.

▶️ Stability compra Clipdrop, creadores de, entre otras cosas, el nuevo método para calcular mapas de profundidad del que hablamos la semana pasada.

▶️ Interesante hilo sobre el “estilo” de los generadores de imágenes.

▶️ Visual ChatGPT: el modelo de Microsoft que te permite crear y cambiar imágenes con solo escribir.

🏆️ Imagen de la semana

Una semana más, es un vídeo. Y qué vídeo.

Creada por Jakub Javora con Stable Diffusion y EbSynth

✏️ Texto

▶️ Chat ID junta avatar, voz y chat para interactuar de forma más natural.

▶️ ChatPDF. Habla y chatea con cualquier archivo pdf

▶️ Chatbase.co. Crea un chat del contenido de una web entera introduciendo su sitemap.

▶️ Florence, el modelo de visión computacional de Microsoft etiquetará el texto alternativo de las imágenes de Reddit.

▶️ Prueba de concepto de ChatGPT con ojos y voz. ¿Podría ser un adelanto del anuncio lo que veremos con GPT-4?

▶️ Einstein GPT de Salesforce. Un CRM con IA que generará ventas por ti, leads…

🧱 3D

▶️ Imagine to 3D. Crea modelos 3d a partir de una única fotografía. Demo de Collab y tutorial de uso (a mí me han salido un par de churros, pero las imágenes eran malas. Tiene mucho potencial)

▶️ DeepBump. Herramienta basada en el aprendizaje automático para generar mapas de normales y de altura a partir de imágenes simples.

▶️ Reuniones virtuales nivel dios con Meta. Lo único medianamente interesante que he visto al respecto de su proyecto de metaverso.

▶️ Inworld es una plataforma de inteligencia artificial que permite crear personajes virtuales con comportamiento y diálogo avanzados.

▶️ AIShader.Editor de shaders para Unity asistido por IA. Para mí esto es como si a un niño le das un billete para ir al parque de atracciones. Enlace

▶️ ZoeDepth. Nuevo método para calcular mapas de profundidad. Con demo

👓 Diseño

▶️ Text2Vectorgraphics, extensión de Automatic 1111 para hacer imágenes vectoriales.

▶️ Looka diseña tu logo con IA

🧠 Productividad

▶️ TLDRBot: Un servicio que resume cualquier conversación de Discord.

▶️ Whimsical. Mapas mentales asistidos por IA.

📻️ Todo lo demás

▶️ ¿Por qué nos enamoramos de los chatbots? Beneficios y riesgos de establecer vínculos afectivos con máquinas.

▶️ ¿Quién decide quién se queda y quién se va? Los algoritmos que determinan los despidos en el sector tecnológico.

▶️ Keanu Reeves rechaza los deepfakes y exige que su contrato de película prohíba las ediciones digitales.

▶️ Demandan a Workday por usar IA discriminatoria en la contratación. La demanda alega que estos sistemas y herramientas discriminan a los solicitantes que son negros, discapacitados o mayores de 40 años.

▶️ Guillem ha creado una newsletter personalizada en la que marcas tus gustos, tus criterios de recepción y la IA buceo por ti en bases de datos como Arxiv. Muy buena pinta.

▶️ Aleph Alpha, el rival europeo de OpenAI, busca financiación para su gran modelo de IA.

▶️ Voicemod: ¿no sabes cantar? Pues esta app convierte tu texto en canciones por ti.

▶️ GoogleIO el 10 de mayo, ¿veremos a Bard?

▶️ En el último capítulo de South Park usaron una voz creada con play.ht además de tratar el tema de la IA.

🎓️ Formación, recursos y tutoriales

▶️ Curso de Chuiso para hacer webs con IA.

▶️ Camemduru se ha convertido en mi ídolo/a por compartir todos estos recursos para probar Stable Difussion en Google Collab y por, además, compartir cómo instalar una versión con ControlNet integrando otros modelos como Realistic Vision.

▶️ Tutorial de la revisión de escenas del videojuego The Last of Us con Stable Difussion.

▶️ Tutorial paso a paso para Textual Inversión. Yo no conocía este método y parece una alternativa muy válida a Dreambooth o LoRA

▶️ Control atmosférico en tus creaciones con Stable Difussion.

📜 Papers, please.

▶️ Nuevo generador de imágenes de Nvidia que promete ser mucho más rápido y mejorar las interpolaciones.

▶️ DepthGen. Generador de mapas de profundidad de Google y con aplicación en la representación 3D.

▶️ BakedSDF, un método para reconstruir mallas de alta calidad de escenas mediante SDF que luego "bakea" (nunca he sabido traducir bien este término, ¿hornea?) para una representación más eficiente.

▶️ Unum: la empresa que desafía a OpenAI CLIP con su codificación multimodal escalable.

▶️ RealFusion: cómo crear modelos 3D realistas de cualquier objeto con una sola foto

▶️ Consistency Models: un posible nuevo paradigma para la generación de contenidos con inteligencia artificial.

▶️ StyO. Estiliza tu cara o cámbiala de estilo con tan solo una referencia.

▶️ Valle E X. Traducciones a otro idioma con tu propia voz.

▶️ PaLM-E: un modelo de lenguaje multimodal generalista enfocado en robótica general

▶️ GigaGAN: la nueva arquitectura de GAN que revoluciona la síntesis de imágenes a partir de texto, con una rápidez de un orden de magnitud menor que Stable Difussion.

▶️ NeRF2Mesh: un método para la recuperación de mallas texturizadas a partir de NeRFs

▶️ Word-As-Image, un método para generar tipografías con relación semántica gracias a la IA

🍅 Salseo

▶️ El servicio de Fantasy.AI parece un poco turbio. Ponen modelos de Stable Difussion sin permiso de sus autores y cuando se denuncia la situación en Reddit dicen que pagan para hundir el post. Si te gusta el salseo, hay una pila de información y denuncias sobre el tema en Reddit.

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

¡Saludos!