W.A.I.
Posts
W.A.I. #11

W.A.I. #11

La IA te lee la mente

David Garrido
5 de marzo de 2023

La IA que te lee la mente

Bienvenidos/as a otra edición de W.A.I.

Esta semana todo iba como siempre en el mundo de la Inteligencia Artificial, es decir, a toda leche, pero el jueves OpenAI decidió abrir la caja de pandora liberando la ansiada API de ChatGPT.

Pero no sólo eso, además, el precio de uso es un 10% de lo que costaba GPT-3 y, por si fuera poco, de regalo, liberaron también la API de Whisper.

Estos últimos días, como consecuencia, se ha vuelto a acelerar el ritmo y no parece que vaya a bajar porque tenemos modelos de Stable Difussion y Dall-e a la vuelta de la esquina.

Una semana más, se quedan fuera de esta edición casi la mitad de las historias, así que considera esto como un destilado con lo mejor de todo lo que ha sucedido esta semana en torno a la IA.

No me enrollo más, que hay faena. Al lío.

📍 ÍNDICE - Echa un vistazo al contenido de hoy

API de ChatGPT y Whisper liberadas
Modelos mejorados de Stable Difussion - Offset Noise
Nueva versión de Dall-e en marcha
Cazas pilotados con IA
Elon Musk se mete de lleno en la IA
El modelo de Facebook, LLaMA filtrado
Más recursos para ControlNet
Primeros tutoriales de uso de la API de ChatGPT
La IA sabe lo que piensas.
Nueva versión de Stable Difussion en preparación

🔍️ El caso

Esta semana ha surgido una noticia que a mí particularmente me ha volado la cabeza: dicen haber sido capaces de generar imágenes con modelos de difusión a partir de la actividad cerebral de los sujetos.

Este tipo de noticias siempre hay que recibirlas con muchísima precaución, pero ¿quién no ha fantaseado con leer la mente de los demás alguna vez?

El proceso utilizado en el estudio se puede resumir en los siguientes pasos:

Se reclutaron 10 participantes que vieron imágenes de objetos naturales y artificiales mientras se les medía la actividad cerebral con fMRI (resonancia magnética funcional).
Se entrenó un modelo de difusión latente -Stable Diffusion- con un conjunto de datos de imágenes de alta resolución.
Se entrenaron dos modelos de codificación lineal para estimar las representaciones latentes del modelo de difusión a partir de la actividad cerebral en áreas visuales tempranas y semánticas. Uno para el Área Visual Temprana, que es donde se procesa la información visual básica y otro para el Área Visual Semántica, que es donde se procesa la información compleja, como la categoría o el significado de los objetos.
Se utilizó Stable Difussion para generar imágenes sintéticas a partir de las representaciones latentes estimadas por los modelos de codificación.
Se evaluó la calidad y la diversidad de las imágenes sintéticas con varias métricas y comparaciones visuales.

Y bueno juzga tú si se parecen o no.

Y aquí lo dejo, que cada uno saque sus conclusiones.

🗻 TOP - Si solo tienes 2 minutos, esta es tu sección.

▶️ Golpe en la mesa de OpenAI. ChatGPT y Whisper ya tienen API disponible.

▶️ MultiDifussión Region Control disponible para Automatic 1111 webUI.

▶️ Pickaxe. Incluye chatGPT en tu web o negocio sin necesidad de saber programar.

▶️ Esto sorprende y acojona por partes iguales. Pruebas sobre California con cazas pilotados con IA.

▶️ Mr Elon Musk no se quieres perder una y se apunta al carro de la IA creando un equipo para competir con OpenAI.

▶️ Lo pondré una y mil veces, Google Collab para probar ControlNet si no tienes una gráfica pepino. Gracias a él he podido hacer pruebas y disfrutar como un enano. Cortesía de Camenduru.

▶️ LLaMA, el modelo de Meta publicado de forma más o menos restrictiva la semana pasada ha sido filtrado.

▶️ Emad, el jefazo de Stability es un maestro poniendo los dientes largos. Aquí da una pequeña idea de lo que podría venir en la siguiente iteración de Stable Difussion.

▶️ Mememorph. Plataforma para hacerte el protagonista de los mejores memes.

▶️ Según este artículo, Google podría incorporar su herramienta Imagen, para creación de imágenes, a todos los dispositivos android.

▶️ Windows 11 integra BingChat en su barra de tareas.

▶️ Compañías como OpenAI, Adobe y TikTok firman un protocolo de actuación responsable sobre la IA.

▶️ Todos los hilos sobre creación de prompts con Midjourney de Nick St. Pierre ordenados para poder empaparse bien de sus métodos.

🐔 Tuit de la semana

▶️ Que sí, que lo de la API de OpenAI es muy importante. Pero para mí este es el tuit de la semana y lo defenderé a muerte contra cualquiera que no esté de acuerdo.

A wool felt/toy version of The Office, made with #gen1@runwayml. I had fun experimenting with it, and the results are promising! #100daysofgen1 Day 1
— Yining Shi (@yining_shi)
4:57 PM • Mar 1, 2023

🖼️ Imágenes

▶️ Emma Catnip está compartiendo sus primeras impresiones y tests de ma nueva versión de Dall-e de openAI

▶️ Explicación de Composer, el nuevo método de control para la generación de imágenes. Sí, aún mejor por lo que parece.

▶️ Yo todavía estoy flipando con el modelo Realistic Vision 1.3 para crear personajes realistas y ya hay una versión 1.4 en preparación.

▶️ Por si alguien no lo sabía, ControlNet es una maravilla, pero Multi-ControlNet es otro nivel. Permite integrar varios métodos para aprovechar las ventajas de cada uno.

▶️ Vídeo sobre el realismo que están alcanzando algunos modelos como LoRA. Enlace.

▶️ Estudio de fotografía con IA en preparación por Danny Postma, uniendo ControlNet y Dreamfusion.

▶️ Si como artista quieres optar a estar fuera de los próximos modelos de Stable Difussión, aquí puedes hacerlo.

▶️ Character sheets dentro de Leonardo AI.

▶️ ¿Es Stable Difussion mejor que Midjourney? Offset Noise es la clave para imágenes impresionantes.

Explicación de Offset Noise y sus implicaciones.
Vídeo donde se explica Offset Noise.
Primer modelo en integrarlo ya disponible: Illuminati
Disponible en CivitAI

▶️ BlueWillow, el sistema de generación de imágenes tipo Midjourney pero gratis, se actualiza a la versión 2.

▶️ Latent Couple, extensión para Stable Difussión que facilita la creación de varios sujetos.

▶️ Se acabaron las manos como ramos de salchichas. Extensión de mapas de profundidad de manos para ControlNet.

🏆️ Imagen de la semana

Una semana más, es algo distinto a una imagen, pero merece mucho la pena. Los genios de Corridor Digital han hecho este corto animado usando herramientas de IA.

✏️ Texto

▶️ Microsoft Kosmos-1, modelo multimodal: según DotCSV, sería como imaginar un ChatGPT capaz de ver y oir.

▶️ ChatGPT puede hacer llamadas a APIs on respuestas al vuelo. Aquí algunos ejemplos.

▶️ Snapchat saca su propio chat basado en ChatGPT,

▶️ Tencent establece un equipo para crear una herramienta como ChatGPT.

▶️ BingChat ahora te permite elegir la personalidad de su chat.

▶️ Zapier integra la API de ChatGPT.

▶️ Respuestas con diferentes perspectivas con el buscador Neeva

▶️ CNET parece tener claro que el futuro pasa por artículos con IA, porque planea volver a publicar de esta forma. Recordemos que fue de los pioneros en hacerlos y no salió especialmente bien, debido, en gran parte, a la falta de revisión.

🧱 3D

▶️ ¿Escenas 3d desde texto? Mirage ha abierto su beta para probar Mirage Canvas y tengo invitación. Lo que no tengo es tiempo de hacer el dichoso onboarding que te piden, agendando una reunión con ellos. Es una pena porque hay bastantes herramientas que me quedo sin probar por este mismo motivo.

▶️ Houdini + ControlNet para la creación de mapas isométricos.

▶️ Nextml y su plugin de Stable Diffusion para Blender.

▶️ OpusAI y su creación de mundos 3D a partir de texto.

▶️ Plugin para Blender de Stable Difussion de los creadores de Stable Difussion.

▶️ Charla de Dan Casas sobre la creación de humanos digitales en #T3chFest2023.

🧠 Productividad

▶️ Postwise: herramienta para mejorar tus publicaciones en Twitter

▶️ ArcWise Asistente para Google Sheets, ahora podrás hablar con tus hojas de cálculo.

▶️ Transvribe. Hazle preguntas a cualquier video de youtube.

📻️ Todo lo demás

▶️ Usa IA para buscar todas las fotos que haya de una persona en internet. Creepy.

▶️ Generación de un avatar 3d a partir de un vídeo.

I continue to be amazed at the pace of #3D research. Below, a 3D avatar is constructed by an algorithm with nothing but a short 2D vid to go off which has had no special preparation done to it. Read the full paper from @ETH_en (+ soon get the code!) here: moygcc.github.io/vid2avatar/
— Jeremy Dalton (@JeremyDaltonXR)
10:30 PM • Feb 25, 2023

▶️ Primer Festival de cine AI, de la mano de Runway.

▶️ Presentación de White Mirror, plataforma enfocada en contar historias con el uso de herramientas de Inteligencia Artificial-

▶️ Deflicker para IA, en fase alpha. Es un tapado de manual pero ha conseguido resultados muy esperanzadores, especialmente si le creemos en lo que dice de que no sabe programar.

▶️ Twee. Herramienta apoyada en IA para ayudar a los profesores a mejorar sus clases. Porque si no puedes con el enemigo, únete a él.

▶️ ¿Deberíamos pausar la IA? Ensayo de Michelle Rempel Garner y Gary Marcus.

▶️ Voicemod, se une a la carrera de generar voz con IA.

▶️ Lyricallabs. Escribe letras de canciones con ayuda de la IA.

▶️ Cómo hacer que una IA te mienta.

▶️ Por qué la ingeniería de prompts es más importante de lo que crees.

▶️ Lemonaid. Creador de música con IA

▶️ Cómo robar un banco con IA.

🎓️ Formación y tutoriales

▶️ Repositorio completísimo de LoRA, explicando el modelo y ofreciendo muchos recursos para su utilización. Este lo tengo pendiente, pero son demasiadas cosas.

Aquí un complemento con otra guía de instalación y uso de LoRA.

▶️ Tutorial para animar personajes generados con IA gracias a depth maps y blender.

How to create cinematic 3D animations like this 👇 from your AI-generated characters!
🧵 1/6 🔊
— Mick (@mickmumpitz)
1:57 PM • Feb 26, 2023

▶️ Curso de reinforcement learning de Hugging Face

▶️ Extensión para Automatic 1111 de ControlNet explicado como si tuvieras 5 años.

▶️ Y aquí en Reddit tienes un tutorial donde explica cómo transformar personajes de ficción, dibujos, videojuegos en modelos reales. Con prompts incluídos.

▶️ Más ControlNet, en este caso aplicado a vídeo de la mano de otro clásico.

▶️ Y uno más, explicando los distintos métodos posibles en ControlNet, en vídeo y con ejemplos visuales de primera.

▶️ Tutorial de cómo se creó LoFi Girl realista con Stable Difussion.

▶️ Tutorial para probar ChatGPT y su API en Google Collab.

▶️ Tutorial de uso de la API de ChatGPT en Google Docs.

▶️ ¿Sabías que podías usar Paint 3D, integrado en windows, como base para ControlNet?

▶️ Semantic Segmentation de ControlNet explicado.

📜 Papers, please.

▶️ MetaPortrait: Un nuevo método para generar retratos parlantes que conservan la identidad.

▶️ ¿Qué ocurre cuando empujas a un gran modelo de lenguaje más allá de sus datos de entrenamiento? Enlace.

▶️ Reiluminación de manos generadas en 3D.

I'm thrilled to announce that our paper on the neural relightable hand model has been accepted for CVPR2023! I owe a big thanks to my mentors @psyth91, Tomas Simon, and collaborators during my internship at Meta! Check out more details on our website! sh8.io/#/relightable_…
— Shun Iwase (@s1wase)
12:08 AM • Feb 28, 2023

▶️ Structured 3D Features (S3F), creación de avatares 3D, animables, reiluminables y editables, desde una única imagen

▶️ Deep learning para mejorar imágenes médicas como rayos x.

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

https://wai-newsletter.beehiiv.com/subscribe

¡Saludos!