W.A.I.
Posts
W.A.I. #24

W.A.I. #24

Nuevo Google, nuevo 3D y nueva generación de imágenes

David Garrido
4 de junio de 2023

Bienvenidos a otra edición de WAI, ¡llevamos 24 ya!

Esta semana Nvidia y Google nos han permitido asomarnos a lo que podría ser el futuro tanto del 3D como de la generación de imágenes.

También ha aparecido un nuevo modelo de lenguaje open source que se ha colocado directo en el número uno de los rankings y, además, permite su uso comercial.

Así que, una vez más, podríamos caer en el error de pensar que al no haber mega anuncios ha sido una semana tranquila, pero nada más lejos de la realidad.

No te entretengo más, que luego se hace tarde.

¡Empezamos!

🔍️ El caso

Esta semana quiero aprovechar este espacio para dos cosas, la primera, alertar de alguna forma de esto que comentan en Monos estocásticos, sobre la noticia de un dron controlado por IA que ha matado/ha intentado matar a su operador en una misión/simulación.

Es un claro ejemplo de lo difícil que se van a poner las cosas a la hora de informarse, si, a la ya de por sí compleja aparición de la IA en imagen y texto en los medios, se le suman las ganas de llamar la atención y la mala praxis periodística. En su hilo lo explican muy bien.

La segunda cosa es, precisamente, recomendar la cuenta, el podcast y la newsletter de Monos estocásticos.

🗻 TOP 10 - Si solo tienes 2 minutos, esta es tu sección.

▶️ Nvidia anunció Neurolangelo, un nuevo sistema de recreación de mayas en 3D. Espectacular.

▶️ En una reciente reunión entre Sam Altman y un grupo de desarrolladores, se discutieron los planes de OpenAI y parece que se han filtrado. Aunque no están confirmados de manera oficial, es muy interesante.

▶️ Japón ha decidido no aplicar los derechos de autor a los datos utilizados en la formación de IA, lo que permite el uso de cualquier dato, independientemente de su origen o finalidad.

▶️ Nvidia ha presentado su "Omniverse Avatar Cloud Engine" (ACE), una inteligencia artificial capaz de crear personajes no jugables (NPC) interactivos en tiempo real, con diálogos improvisados y animaciones faciales.

▶️ Perplexity, en mi opinión, la mejor alternativa a ChatGPT y mil veces mejor que Bing, ya tiene app de Android.

▶️ Google anunció StyleDrop, modelo con el que crear imágenes extrayendo el estilo de una imagen dada. Muy prometedor.

▶️ MindEye, un innovador enfoque de fMRI-a-imagen que permite recrear y recuperar imágenes visualizadas a partir de la actividad cerebral.

🐔 Tuit de la semana

Cuando la publicidad se hace bien 😂
— Esteban Diba (@estebandiba)
3:50 PM • Jun 2, 2023

🏆️ Imagen de la semana

Charlie Engman fotógrafo y artista reconocido, realiza experimentos con Midjourney en The New Yorker.

🖼️ Imágenes

▶️ La extensión de Automatic 1111 Inpaint Anything, permite eliminar áreas no deseadas de imágenes en la interfaz de usuario de un navegador mediante el uso de máscaras generadas a partir de la herramienta Segment Anything de Meta.

▶️ Automatic 1111 se actualiza a la versión 1.3.

▶️ Gran caso de uso: transformar ecografías de bebés en imágenes de alta resolución gracias a la IA.

▶️ Vectorizer.AI: Convierte imágenes en vectores automáticamente con IA.

▶️ ¿Es el arte generado por IA una amenaza para los artistas tradicionales? Entrevista a Greg Rutkowski, artista cuyo nombre ha sido usado hasta la saciedad en los prompts de generación de imágenes.

▶️ Paragraphica es una cámara de fotos sin ser cámara de fotos. Utiliza información de la localización junto a la Inteilgencia Artificial para generar imágenes desde el punto en el que se encuentra. Una marcianada, vaya.

▶️ Pixgen es un generador de imágenes, dicen, parecido a Midjourney que está en fase alpha.

▶️ Espectacular uso de la nueva herramienta generativa de Photoshop por parte de Kris Kashtanova reimaginando cómo serían completas algunas de las esculturas más famosas.

When I visit museums I always wonder what those broken sculptures looked like. Thanks to Generative Fill I restored some. The last one is my favorite.
Would absolutely love to see your restoration efforts: broken sculptures, ancient temples, anything goes!
— Kris Kashtanova (@icreatelife)
9:39 PM • May 30, 2023

✏️ Texto

▶️ Los plugins de ChatGPT al fin tienen un buscador.

▶️ Juan González consiguió echar un vistazo a la nueva experiencia de búsqueda generativa de Google y comparte sus primeras impresiones en este artículo.

▶️ El Falcon LLM es un modelo de lenguaje con 40B de parámetros, que se ha colocado el número 1 entre los modelos open source y que ha sido desarrollado por el Technology Innovation Institute (TII). Este modelo supera ampliamente el rendimiento de GPT-3, requiriendo solo el 75% del presupuesto de cálculo para su entrenamiento y un quinto del cálculo en tiempo de inferencia.

▶️ Macaw-LLM es un modelo de IA que integra imágenes, vídeos, audios y texto gracias a unir modelos como Whisper, LLaMA y CLIP.

▶️ El proyecto open-source privateGPT permite entrenar tu propio modelo de lenguaje sin exponer tus datos privados al proveedor.

▶️ Un estudio reciente de OpenAI comparó dos métodos de supervisión en el entrenamiento de modelos de recompensa: supervisión de resultados y supervisión de procesos. Los resultados mostraron que la supervisión de procesos conduce a un mejor rendimiento en los procesos matemáticas en este caso.

▶️ El lado oscuro de la ingeniería de prompts: los prompt injections.

▶️ Comparador de Embeddings.

▶️ Los anuncios generados por Inteligencia Artificial demostraron ser prácticamente indistinguibles de los creados por humanos en una competición descrita como el primer Test de Turing en publicidad.

🧱 Diseño / 3D

▶️ Threestudio es una plataforma unificada para la creación de contenido 3D a partir de textos e imágenes.

▶️ Aprende a implementar el reconocimiento de voz de última generación en tus proyectos de Unity utilizando la API de Hugging Face.

▶️ PhotoMat: Generador de materiales con sus respectivos mapas a partir de fotos con flash.

▶️ Meshy es una plataforma enfocada a la generación de objetos 3D mediante Inteligencia Artificial.

▶️ La plataforma Spline se actualiza con cosas tan interesantes como transferencia de estilos.

▶️ Convai es una solución para utilizar IA en los personajes de videojuegos.

🎥 Vídeo

▶️ Roop es un proyecto para crear deepfakes en vídeos con tan sólo una imagen de referencia.

▶️ Runway firma un acuerdo de colaboración con Google para entre los que incluye el uso de sus servicios de Google Cloud.

📻️ Todo lo demás

▶️ Google ha presentado REVEAL, un innovador modelo de lenguaje visual que utiliza una "memoria" multimodal.

▶️ SoundStorm, un modelo desarrollado por Google Research, promete cambiar la forma en que generamos audio de alta calidad mediante IA.

▶️ OpenAI impulsa la ciberseguridad con un programa de subvenciones de 1M de dólares.

▶️ Descubre cómo Ammaar Reshi utiliza la IA para crear proyectos sorprendentes en un fin de semana, incluyendo un libro infantil que se hizo viral, un pódcast con un ex presidente de EE. UU. y un cortometraje animado de Batman.

▶️ Hugging Face e IBM han anunciado su colaboración en watsonx.ai una plataforma para los creadores de aplicaciones con IA de nueva generación.

▶️ AudioShake permite separar canciones o sonidos por pistas independientes.

🎓️ Formación y tutoriales

▶️ El curso "AI For Everyone" en Coursera, creado por DeepLearning.AI, está diseñado para acercar la inteligencia artificial a cualquiera, sin necesidad de conocimientos técnicos previos.

▶️ Descubre cómo generar imágenes únicas y creativas utilizando la interfaz de usuario Automatic1111 y el modelo Stable Diffusion.

📜 Papers, please.

▶️ Break-A-Scene: En este estudio, se presenta una novedosa tarea de descomposición textual de escenas, extrayendo un token de texto distinto para cada concepto a partir de una única imagen. Esto permite un mayor control sobre las escenas generadas por inteligencia artificial.

▶️ 4D Humans, un nuevo modelo que permite reconstruir personas en 3D a partir de cualquier video.

🍅 Salseo

▶️ ¿Deberían los artistas de IA tener derechos de autor?

▶️ Un nuevo artículo, esta vez de la revista Times, alertando sobre los peligros de la IA.

▶️ Poco más se puede añadir a estas dos imágenes.

How it started How it’s going
— Ariel Guersenzvaig (@interacciones)
1:20 PM • May 31, 2023

Despedida

Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?

Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.

Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.

También puedes copiar y compartir directamente este enlace

https://wai-newsletter.beehiiv.com/subscribe

¡Saludos!