W.A.I. #28

Crea juegos a partir de texto, ábrele la boca a un león y el Vaticano habla de la IA

Bienvenida/o a otra edición de WAI.

Comienza el verano pero eso no parece disminuir las noticias relacionadas con IA. Si la semana pasada hubo mayoría de novedades en la generación de imágenes, en esta yo diría que es el 3D quien ha ganado la partida.

Tenemos IA en Unity, creación de objetos 3D a partir de texto, Wonder Studio, generación de avatares a partir de una foto…en fin, unas cuantas y muy buenas novedades.

Pero, como siempre, hay muchas más cosas. Desde promesas de superar a GPT4, hasta una serie de adquisiciones de empresas de IA (parece que el dinero es infinito), pasando por renuncias en Stability.

Así que si quieres enterarte de estas y más historias, ya sabes, pasa que te lo he intentado poner todo a mano.

Empezamos.

🗻 TOP 10 - Si solo tienes 2 minutos, esta es tu sección.

▶️ El siguiente algoritmo de Deepmind eclipsará ChatGPT. O eso dice su CEO, Demis Hassabis.

▶️ El lunes se publicó el código de DragGan, aquel editor de imágenes a base de arrastrar puntos que nos dejó a todos boquiabiertos. Lo probé un poco y aquí te dejo algún test para que veáis lo que puede hacer ahora mismo y un par de enlaces para que lo puedas probar.

▶️ Databricks adquiere MosaicML por 1.3B de dólares. Siguen cayendo los billetes del cielo para las empresas de IA.

▶️ Lista de los robots que atenderán la próxima semana a una reunión en la ONU. Parece de coña, pero es real. La semana que viene, si todo va bien, hablamos de ello.

 🐔 Tuit de la semana

▶️ Unity anunció sus primeras herramientas con IA: Muse y Sentis. Una para usar en el editor, como asistente de lenguaje natural, la otra para integrar redes neuronales en tiempo real.

🏆️ Imagen de la semana

🖼️ Imágenes

▶️ Instalador con 1 clic de Stable Diffusion en local, con Automatic1111. Igual consigo vencer la pereza de instalármelo si es tan sencillo como dice.

▶️ DotCSV nos cuenta en su nuevo vídeo las novedades en cuestión de imagen y vídeo de estos últimos días. Muy recomendable, como siempre.

▶️ El modelo RealisticVision saca su versión 3.0. El nivel de realismo es tremendo.

▶️ Genera diferentes vistas a partir de una única imagen con MVDiffusion . Puedes crear imágenes panorámicas 360 de un entorno, por ejemplo. En el vídeo se ve muy claro.

▶️ Img2Prompt. Modelo que hace lo contrario que la mayoría: transforma una imagen en texto.

▶️ Glaze, la aplicación para evitar que tus imágenes se usen para entrenar modelos de difusión, ha publicado su versión 1.0.

▶️ Playground anuncia su nuevo editor de imágenes con IA, con un buen número de novedades.

▶️ En Midjourney ya se puede volver a ver el vídeo de cómo se genera tu imagen refinando el ruido. Parece una chorrada, pero es una función muy chula.

▶️ Primeros experimentos para transformar imágenes de Midjourney a NeRF.

✏️ Texto

🧱 Diseño / 3D

▶️ Vuelve a no ser IA como tal, pero para mí sigue entrando dentro del terreno de la magia que se pueda generar un escenario así de manera procedural. Nueva demo de Unreal.

*Fé de erratas: la semana pasado dije que usaba Stable Diffusion y no, es un GAN. La confusión vino porque lo vi como extensión de Automatic1111 y por las prisas.

🎥 Vídeo

▶️ Y si prefieres en Colab, aquí hay uno con varios modelos para probar tanto text2video como img2video junto a una explicación de cómo hacerlo funcionar.

▶️ Experimento de lo que se puede hacer combinando, en este caso, Stable Diffusion y Blender. La portada del vídeo es, en fin, ya sabemos todos cómo va esto, pero el primer modelo que aparece en el vídeo es un señor mazas en calzones. Fuera del tema elegido, creo que el workflow es muy interesante.

📻️ Todo lo demás

▶️ Humane anunció el nombre de su primer producto, AI Pin, pero no desveló muchos más detalles aparte de mostrar una imagen promocional. Recuerda que fue una de las charlas TED más sonadas y que en ella hicieron una demostración de cómo sería tener un asistente personal con IA sin necesidad de teléfono, ni gadgets.

▶️ Nueva versión de TTS publicada, el sintetizador de voz ahora trae a BARK, multi-idioma y clonación de voz.

▶️ Operar con robots suele tener un problema de latencia asociado. Pues bien, mira lo que han conseguido reducir en la empresa Quibo. Es flipante.

▶️ WALDO v2 es un sistema de reconocimiento de imagen MUY potente.

▶️ Runway ha conseguido 141 millones de financiación, con Google, Nvidia y Salesforce aportando.

🎓️ Formación y tutoriales

▶️ Si no tienes instalado Stable Diffusion y piensas que es muy complicado hacerlo, este tutorial de Patricio Fernández te lo pone a huevo para que lo montes en Colab y empieces a disfrutar.

▶️ Nuevo curso de Deeplearning, en este caso sobre los fundamentos de los LLMs y su aplicación en el mundo real.

▶️ Guía para hacer upscale cuando se utiliza Zeroscope, el modelo de text2video que tan buenos resultados está dando.

▶️ Tutorial de Midjourney a video, primeros flujos de trabajo experimentales.

📜 Papers, please.

🍅 Salseo

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

¡Saludos!