W.A.I. #11

La IA te lee la mente

La IA que te lee la mente

Bienvenidos/as a otra edición de W.A.I.

Esta semana todo iba como siempre en el mundo de la Inteligencia Artificial, es decir, a toda leche, pero el jueves OpenAI decidió abrir la caja de pandora liberando la ansiada API de ChatGPT.

Pero no sólo eso, además, el precio de uso es un 10% de lo que costaba GPT-3 y, por si fuera poco, de regalo, liberaron también la API de Whisper.

Estos últimos días, como consecuencia, se ha vuelto a acelerar el ritmo y no parece que vaya a bajar porque tenemos modelos de Stable Difussion y Dall-e a la vuelta de la esquina.

Una semana más, se quedan fuera de esta edición casi la mitad de las historias, así que considera esto como un destilado con lo mejor de todo lo que ha sucedido esta semana en torno a la IA.

No me enrollo más, que hay faena. Al lío.

📍 ÍNDICE - Echa un vistazo al contenido de hoy

  • API de ChatGPT y Whisper liberadas

  • Modelos mejorados de Stable Difussion - Offset Noise

  • Nueva versión de Dall-e en marcha

  • Cazas pilotados con IA

  • Elon Musk se mete de lleno en la IA

  • El modelo de Facebook, LLaMA filtrado

  • Más recursos para ControlNet

  • Primeros tutoriales de uso de la API de ChatGPT

  • La IA sabe lo que piensas.

  • Nueva versión de Stable Difussion en preparación

🔍️ El caso

Esta semana ha surgido una noticia que a mí particularmente me ha volado la cabeza: dicen haber sido capaces de generar imágenes con modelos de difusión a partir de la actividad cerebral de los sujetos.

Este tipo de noticias siempre hay que recibirlas con muchísima precaución, pero ¿quién no ha fantaseado con leer la mente de los demás alguna vez?

El proceso utilizado en el estudio se puede resumir en los siguientes pasos:

  • Se reclutaron 10 participantes que vieron imágenes de objetos naturales y artificiales mientras se les medía la actividad cerebral con fMRI (resonancia magnética funcional).

  • Se entrenó un modelo de difusión latente -Stable Diffusion- con un conjunto de datos de imágenes de alta resolución.

  • Se entrenaron dos modelos de codificación lineal para estimar las representaciones latentes del modelo de difusión a partir de la actividad cerebral en áreas visuales tempranas y semánticas. Uno para el Área Visual Temprana, que es donde se procesa la información visual básica y otro para el Área Visual Semántica, que es donde se procesa la información compleja, como la categoría o el significado de los objetos.

  • Se utilizó Stable Difussion para generar imágenes sintéticas a partir de las representaciones latentes estimadas por los modelos de codificación.

  • Se evaluó la calidad y la diversidad de las imágenes sintéticas con varias métricas y comparaciones visuales.

Y bueno juzga tú si se parecen o no.

Y aquí lo dejo, que cada uno saque sus conclusiones.

🗻 TOP - Si solo tienes 2 minutos, esta es tu sección.

▶️ Golpe en la mesa de OpenAI. ChatGPT y Whisper ya tienen API disponible.

▶️ MultiDifussión Region Control disponible para Automatic 1111 webUI.

▶️ Pickaxe. Incluye chatGPT en tu web o negocio sin necesidad de saber programar.

▶️ Esto sorprende y acojona por partes iguales. Pruebas sobre California con cazas pilotados con IA.

▶️ Mr Elon Musk no se quieres perder una y se apunta al carro de la IA creando un equipo para competir con OpenAI.

▶️ Lo pondré una y mil veces, Google Collab para probar ControlNet si no tienes una gráfica pepino. Gracias a él he podido hacer pruebas y disfrutar como un enano. Cortesía de Camenduru.

▶️ Emad, el jefazo de Stability es un maestro poniendo los dientes largos. Aquí da una pequeña idea de lo que podría venir en la siguiente iteración de Stable Difussion.

▶️ Mememorph. Plataforma para hacerte el protagonista de los mejores memes.

▶️ Compañías como OpenAI, Adobe y TikTok firman un protocolo de actuación responsable sobre la IA.

▶️ Todos los hilos sobre creación de prompts con Midjourney de Nick St. Pierre ordenados para poder empaparse bien de sus métodos.

 🐔 Tuit de la semana

▶️ Que sí, que lo de la API de OpenAI es muy importante. Pero para mí este es el tuit de la semana y lo defenderé a muerte contra cualquiera que no esté de acuerdo.

🖼️ Imágenes

▶️ Emma Catnip está compartiendo sus primeras impresiones y tests de ma nueva versión de Dall-e de openAI

▶️ Explicación de Composer, el nuevo método de control para la generación de imágenes. Sí, aún mejor por lo que parece.

▶️ Yo todavía estoy flipando con el modelo Realistic Vision 1.3 para crear personajes realistas y ya hay una versión 1.4 en preparación.

▶️ Por si alguien no lo sabía, ControlNet es una maravilla, pero Multi-ControlNet es otro nivel. Permite integrar varios métodos para aprovechar las ventajas de cada uno.

▶️ Vídeo sobre el realismo que están alcanzando algunos modelos como LoRA. Enlace.

▶️ Estudio de fotografía con IA en preparación por Danny Postma, uniendo ControlNet y Dreamfusion.

▶️ Si como artista quieres optar a estar fuera de los próximos modelos de Stable Difussión, aquí puedes hacerlo.

▶️ ¿Es Stable Difussion mejor que Midjourney? Offset Noise es la clave para imágenes impresionantes.

▶️ BlueWillow, el sistema de generación de imágenes tipo Midjourney pero gratis, se actualiza a la versión 2.

▶️ Latent Couple, extensión para Stable Difussión que facilita la creación de varios sujetos.

▶️ Se acabaron las manos como ramos de salchichas. Extensión de mapas de profundidad de manos para ControlNet.

🏆️ Imagen de la semana

Una semana más, es algo distinto a una imagen, pero merece mucho la pena. Los genios de Corridor Digital han hecho este corto animado usando herramientas de IA.

✏️ Texto

▶️ Microsoft Kosmos-1, modelo multimodal: según DotCSV, sería como imaginar un ChatGPT capaz de ver y oir.

▶️ ChatGPT puede hacer llamadas a APIs on respuestas al vuelo. Aquí algunos ejemplos.

▶️ Snapchat saca su propio chat basado en ChatGPT,

▶️ Respuestas con diferentes perspectivas con el buscador Neeva

▶️ CNET parece tener claro que el futuro pasa por artículos con IA, porque planea volver a publicar de esta forma. Recordemos que fue de los pioneros en hacerlos y no salió especialmente bien, debido, en gran parte, a la falta de revisión.

🧱 3D

▶️ ¿Escenas 3d desde texto? Mirage ha abierto su beta para probar Mirage Canvas y tengo invitación. Lo que no tengo es tiempo de hacer el dichoso onboarding que te piden, agendando una reunión con ellos. Es una pena porque hay bastantes herramientas que me quedo sin probar por este mismo motivo.

▶️ Houdini + ControlNet para la creación de mapas isométricos.

▶️ Nextml y su plugin de Stable Diffusion para Blender.

▶️ OpusAI y su creación de mundos 3D a partir de texto.

▶️ Plugin para Blender de Stable Difussion de los creadores de Stable Difussion.

▶️ Charla de Dan Casas sobre la creación de humanos digitales en #T3chFest2023.

🧠 Productividad

▶️ Postwise: herramienta para mejorar tus publicaciones en Twitter

▶️ ArcWise Asistente para Google Sheets, ahora podrás hablar con tus hojas de cálculo.

▶️ Transvribe. Hazle preguntas a cualquier video de youtube.

📻️ Todo lo demás

▶️ Generación de un avatar 3d a partir de un vídeo.

▶️ Primer Festival de cine AI, de la mano de Runway.

▶️ Presentación de White Mirror, plataforma enfocada en contar historias con el uso de herramientas de Inteligencia Artificial-

▶️ Deflicker para IA, en fase alpha. Es un tapado de manual pero ha conseguido resultados muy esperanzadores, especialmente si le creemos en lo que dice de que no sabe programar.

▶️ Twee. Herramienta apoyada en IA para ayudar a los profesores a mejorar sus clases. Porque si no puedes con el enemigo, únete a él.

▶️ ¿Deberíamos pausar la IA? Ensayo de Michelle Rempel Garner y Gary Marcus.

▶️ Voicemod, se une a la carrera de generar voz con IA.

▶️ Lyricallabs. Escribe letras de canciones con ayuda de la IA.

▶️ Lemonaid. Creador de música con IA

🎓️ Formación y tutoriales

▶️ Repositorio completísimo de LoRA, explicando el modelo y ofreciendo muchos recursos para su utilización. Este lo tengo pendiente, pero son demasiadas cosas.

Aquí un complemento con otra guía de instalación y uso de LoRA.

▶️ Tutorial para animar personajes generados con IA gracias a depth maps y blender.

▶️ Extensión para Automatic 1111 de ControlNet explicado como si tuvieras 5 años.

▶️ Y aquí en Reddit tienes un tutorial donde explica cómo transformar personajes de ficción, dibujos, videojuegos en modelos reales. Con prompts incluídos.

▶️ Más ControlNet, en este caso aplicado a vídeo de la mano de otro clásico.

▶️ Y uno más, explicando los distintos métodos posibles en ControlNet, en vídeo y con ejemplos visuales de primera.

▶️ Tutorial de cómo se creó LoFi Girl realista con Stable Difussion.

📜 Papers, please.

▶️ MetaPortrait: Un nuevo método para generar retratos parlantes que conservan la identidad.

▶️ ¿Qué ocurre cuando empujas a un gran modelo de lenguaje más allá de sus datos de entrenamiento? Enlace.

▶️ Reiluminación de manos generadas en 3D.

▶️ Structured 3D Features (S3F), creación de avatares 3D, animables, reiluminables y editables, desde una única imagen

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

¡Saludos!