W.A.I.
Posts
W.A.I. #27

W.A.I. #27

Lo fórmula secreta de GTP4, 1B de dólares en GPUs y DeepFake Tom Cruise

David Garrido
25 de junio de 2023

Bienvenida/o a otra edición de WAI.

Hacía unas semanas que no había tanto movimiento y, no te voy a engañar, se echaba un poco de menos.

Especialmente porque ese movimiento ha venido de la mano de la actualización de los 2 modelos de generación de imagen por excelencia: Midjourney y Stable Diffusion.

Aparte de eso, esta semana traemos a Hideo Kojima, Chris Rock y Tom Cruise. Ahí es nada. Si quieres ver qué tienen que ver con la IA y alguna que otra cosa más, estás en el lugar adecuado.

No me enrollo más. Empezamos.

🗻 TOP 10 - Si solo tienes 2 minutos, esta es tu sección.

▶️ Midjourney se actualiza a la versión 5.2 y trae bastantes novedades. Entre ellas, la que más ha llamado la atención, es la habilidad de poder hacer zoom out a las imágenes que generamos.

Midjourney v5.2 Zoom Out es increíble.
Si alguien nos hubiera dicho hace un año que a partir de una simple descripción de texto, una IA (como #midjourney) sería capaz de generar imágenes como estas, no lo hubiéramos creído.
¡Es un cambio de paradigma extraordinario! 🧵👇
— Javi López ⛩️ (@javilop)
2:46 PM • Jun 23, 2023

▶️ OpenAI estaría considerando abrir una App Store de software enfocado en IA.

▶️ Figma tiró la casa por la ventana y anunció un montón de mejoras, la salida de Figma AI y la adquisición de Diagram.

What's New in Figma

Learn about our latest features and updates.

▶️ Google DeepMind presentó RoboCat, un modelo enfocado en el manejo de múltiples robots que tiene la capacidad de auto-mejorarse.

▶️ Según esta información, podría haberse filtrado en una entrevista la fórmula mágica de GPT-4. Se trataría de 8 modelos más o menos pequeños con diferentes especialidades y no uno gigante como se pensaba.

▶️ A pesar de las presiones para suavizar la normativa europea en torno a la IA y la aprobación del primer borrador, parece que ninguno de los modelos actuales cumpliría la regulación de la UE según este estudio de Stanford.

▶️ La empresa ByteDance, propietaria de TikTok, ha comprado 1B de dólares en GPUs de Nvidia.

▶️ Stable Diffusion lanza su nueva versión, la SDXL 0.9, con una pinta muy prometedora. La versión 1.0 se publicará en julio y parece que vendrá cargada de herramientas como ControlNet o Textual Inversión y con alguna novedad extra.

Una de sus propiedades más llamativas es que, a pesar de la mejora de calidad, el modelo se puede ejecutar en 16GB de RAM y 8 de VRAM.

Ejemplos de lo que es capaz de hacer SDXL

▶️ Más de 100k cuentas de ChatGPT se habrían visto comprometidas y publicadas en la dark web.

▶️ VoiceBox es el nuevo modelo de Meta de sintetización de voz. Es tan potente que no se atreven a hacerlo público.

🐔 Tuit de la semana

▶️ El vídeo con el mejor uso hasta ahora de Generative Fill de Photoshop. Merece la pena.

Adobe Photoshop Generative Fill 😎
My hair limited friends, this one is for us!
We BACK! 😮👇
— Allen T (@Mr_AllenT)
1:34 PM • Jun 16, 2023

🏆️ Imagen de la semana

Parece arbitrario, pero poner aquí este vídeo como imagen de la semana tiene su explicación.

Me parece que, personalmente, la postura de Kevin Heart es la más lógica posible ante la novedad, del tipo que sea. Viene a decir que si hay una nueva tecnología, la estudiarán y, si encaja con las necesidades que ellos tienen como negocio, la usarán. Simple.

🖼️ Imágenes

▶️ Adobe mostró un poco de su proyecto Gingerbread, que viene a ser el uso de modelos 3D para guiar la generación de imágenes.

▶️ Aunque gran parte del pastel ya fue desvelado con la publicación de la versión 5.2, sigue siendo muy interesante leer las notas sobre las Office Hours de Midjourney. Hablan de la v6.

▶️ Ejecuta Stable Diffusion en local en tu dispositivo Apple gracias a Diffusers.

▶️ Pequeño truco de Matt Wolfe para generar personajes consistentes usando la nueva herramienta Zoom out de Midjourney.

When done right, I feel like this new zoom out feature could be the key to getting a consistent character in MidJourney.
1. Generate a super closeup of a face.
2. Do a custom zoom with whatever scenario you want.
3. Zoom out 2x again on the resulting image.
— Matt Wolfe (@mreflow)
5:03 AM • Jun 24, 2023

✏️ Texto

▶️ OpenAI habría presionado “un poco” a la Unión Europea para que relajara sus pretensiones con la regulación de la IA.

▶️ GPT-Engineer es un nuevo Agente Autónomo capaz de crear y explicar el código que le pidas. Aquí una review de Maya Akim:

▶️ Microsoft presenta ORCA, un nuevo modelo de lenguaje que aprende por instrucciones de su hermano mayor GPT4 y que parece que tiene un rendimiento excelente.

▶️ Ya está disponible el modelo OpenLLaMA de 13b.

▶️ Truco, descubrimiento, o no sé muy bien cómo llamarlo, que permitiría ampliar la ventana de contexto 4 veces con una ligera degradación en la calidad cambiando 2 líneas de código.

▶️ Y esta semana también se liberó el modelo MPT-30B, cuyo uso comercial está permitido.

▶️ Desde Inflection, creadores del chatbot Pi, anunciaron su primer modelo de lenguaje propio. Según dicen, supera a ChatGPT3.5, Chinchilla y LLaMA en un gran número de test.

▶️ El 92% de los programadores están usando IA, según esta encuesta de GitHub.

▶️ Bing Chat empieza a desplegar la posibilidad de subir imágenes y preguntar sobre ellas. ¿El inicio del multimodal?

Curioso también este posible caso de uso, le puedes pedir que resuelva un captcha.

▶️ Opera presenta su nuevo buscador con IA integrada basado en GPT-4.

▶️ La demo de MMS de Meta ya está lista para probarse en Hugging Face. Con este modelo podrás crear audios en más de 1100 idiomas diferentes.

🧱 Diseño / 3D

▶️ El código de InfiniGen ha sido liberado ya. Este modelo es capaz de crear mundos virtuales en 3D y tiene un pinta así de buena.

▶️ LumaLabs tiene abierta su lista de espera para, parece, poder probar su herramienta de text-to-3D. Puedes apuntarte aquí.

▶️ Convierte a tu perro en 3D a partir de una única fotografía.

▶️ Creación de cabezas en 3D a partir de una imagen usando Stable Diffusion.

▶️ Pixar ha usado IA en su nueva película, Elemental.

▶️ Han integrado el modelo de Nvidia Neuroangelo para reconstrucción de modelos 3D a partir de imágenes en SDF Studio.

🎥 Vídeo

▶️ Una semana más y un nuevo modelo de text2video más (y con mejor calidad). En este caso es zeroscope_v2_576w. Aquí unos cuantos ejemplos de lo que puede hacer.

📻️ Todo lo demás

▶️ Dropbox añadirá funcionalidades con IA finalmente, no le quedaba otra.

▶️ Neuro-Sama es una streamer virtual, generada por IA y que hasta interactúa con el chat en sus directos. Ya tiene medio millón de seguidores entre Youtube y Twitch.

▶️ Hideo Kojima habla sobre la IA y da su punto de vista sobre su uso en los procesos de producción.

▶️ Un día entero probando un coche sin conductor.

▶️ Oferta de trabajo para prompt engineer en Londres con salario de 100k €.

▶️ El nuevo agente IA de DeepMind consigue dominar 26 juegos de Atari en tan sólo 2 horas. Y aún así lo mejor es su nombre: Bigger, Better, Faster.

▶️ Entrevista a DeepFake Tom Cruise, que a su vez es el fundador de Metaphysics, una de las 100 compañías más influyentes del mundo según la revista Times. Su web es tan buena que puedes echar la tarde viendo proyectos en los que han participado.

▶️ El presidente de China, Xi Jinping, dijo en un encuentro con Bill Gates que las empresas americanas de IA son bienvenidas en su país.

▶️ Es increíble que todos los sonidos de este vídeo sean sintéticos.

🎓️ Formación y tutoriales

▶️ Cómo hacer Deep Fakes con Roop y Stable Diffusion.

▶️ Tutorial para entrenar modelos de lenguaje en ordenadores de consumo, usando 4bit QLoRA.

▶️ Nick St. Pierre explica en este hilo de Twitter cómo usar la técnica de prompt blending en Midjourney.

▶️ Guía de cómo llenar de color tus fotografías antiguas en blanco y negro.

▶️ Convierte a tu mascota en cualquier animal con este paso a paso y ControlNet.

▶️ Transforma cualquier fotografía en acuarela con el generative fill de Photoshop y este original truco.

▶️ Guía para hacer esos zooms que están llenando todo Twitter desde la salida de la nueva versión de Midjourney.

▶️ Tutorial de Eric sobre WarpFusion, aplicación para creación de vídeos con unos resultados espectaculares.

📜 Papers, please.

▶️ Vid2Avatar es un modelo para generar representaciones 3D de personas a partir de un vídeo.

▶️ Y en esta misma línea, también tenemos NIKI, modelo para estimar poses de personajes en 3D a partir de vídeos. El vídeo usado para la demo es de gente haciendo parkour y es bastante espectacular

▶️ Hoy la cosa va de avatares. Structured 3D Features (S3F) es un modelo que permite generar un avatar 3D a partir de una imagen que después puede ser animado, re-iluminado o editado sin necesidad de pos-procesado. Es flipante, vaya.

📢📢 Our paper "Structured 3D Features (S3F) for Reconstructing Relightable and Animatable Avatars" was accepted at #CVPR2023!
S3Fs take an input image and generate a 3D human reconstruction that can be animated, relighted or edited (eg. change clothes) without post-processing!
— Enric Corona (@enric_corona)
9:08 PM • Feb 28, 2023

🍅 Salseo

▶️ Ha habido bastante jaleo en torno a la intro de la nueva serie de Marvel, Secret Invasion. Todo viene por el uso de la IA en la creación de la misma y se ha aprovechado que no parece gustar especialmente, para cargar contra el uso de estas nuevas técnicas en producciones de este tipo.

Aquí se explica un poco la visión desde el punto de vista de los autores

Despedida

Una vez más, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

https://wai-newsletter.beehiiv.com/subscribe

¡Saludos!