- W.A.I.
- Posts
- W.A.I. #48
W.A.I. #48
Google se la juega con Gemini, Grok copia a OpenAI y pon a cualquiera a bailar TikToks
Bienvenida/o a una nueva edición de WAI, la número 48.
Esta semana (o estos últimos 14 días más bien) tengo la sensación de que ha habido un aluvión de novedades de un nivel muy superior al habitual.
Creo que las noticias del top 10 de hoy son una especie de All Star donde está lo mejor de cada casa. El único de los grandes que echo en falta es OpenAI, pero bastante hemos tenido las pasadas semanas con sus dramas, así que bien está que descansen un poco.
Probablemente lo más llamativo (spoiler alert) sea el anuncio de Google Gemini y, al hilo de ese anuncio, venía dándole vueltas a un tema que me gustaría compartir brevemente contigo.
Cada nuevo modelo que aparece lleva bajo el brazo una serie de evaluaciones y métricas que se supone que sirven para demostrar lo potentes y maravillosos que son.
Estas métricas, lógicamente, no son las mismas para todos y cada cual elige mostrar la que más le favorece, faltaría más. A veces tengo la sensación de que debajo de esos números hay mucho más trabajo de maquillaje que de realidad.
Los esfuerzos que hacen a veces para demostrar que su modelo supera al del rival son dignos de un contorsionista de circo.
Resumiendo, para mí son números que no reflejan la realidad (utilidad) del modelo y cumplen una función -muy importante, eso sí- de marketing. ¿Cuántos modelos hemos leído que superan a GPT-4 y luego son, hablando en plata, un mojón? Pues eso.
Empezamos.
🗻 TOP 10 - Si solo tienes 2 minutos, esta es tu sección.
▪️Te dejo aquí el vídeo más impresionante y controvertido de esta presentación:
▪️Y es que parece que no es oro todo lo que reluce y la demo tenía un poco (mucho) cartón piedra. DotCSV lo comenta en este vídeo:
▶️ La IA de Elon Musk, Grok, ya está disponible en EEUU. Y como nosotros sabemos usar una VPN, también podemos utilizarlo ;).
▶️ La Unión Europea aprueba la primera ley de regulación de la Inteligencia Artificial. Nota mental: ser los primeros no siempre significa ser los mejores.
▶️ Stability, creadores de Stable Diffusion entre otros, está estudiando implementar un modelo de suscripción para el uso de sus modelos. Por lo visto los inversores están apretando.
▶️ La nueva versión 1.0 de PikaLabs parece tener todo lo necesario para pelear de tú a tú con Runway como la mejor herramienta de vídeo con IA. El vídeo de presentación es una maravilla.
▶️ “Pequeño” resumen de las novedades que tienen entre manos en Meta en relación con la IA. Nada menos que 20.
🐔 Tuit de la semana
▶️ Grok mostró el clásico mensaje de los modelos de OpenAI en una respuesta y la cuenta de ChatGPT no perdió la oportunidad de señalarlo.
🏆️ Imagen de la semana
🛠️ La Cacharrería (si eres de probar las cosas, estás en el lugar adecuado)
▶️ Como nota final de esta sección, te diría que si tienes un equipo medio decente instales Pinokio y pruebes todo lo que está compartiendo su autor, porque lleva unos días subiendo casi de todo y es una gozada.
🖼️ Imágenes
▶️ Meta ha publicado su herramienta para generar imágenes. De momento sólo se puede usar en EEUU, pero con un VPN (descargando el navegador Opera) todo se arregla.
▶️ Juan Pablo de Miguel sigue mejorando su Style2Anything, para transferir estilos de una imagen a otras.
▶️ Playground presentó su nuevo modelo de generación de imágenes, abierto para uso comercial y entrenado desde cero. Dicen que en sus pruebas la gente lo prefería frente a SDXL.
✏️ Texto
▶️ Mamba-Chat es el primer Chatbot de IA que no se basa en la tecnología transformers para funcionar.
▶️ Mistral ha liberado su nuevo modelo mezcla de expertos con una combinación de 8 versiones de 7b de parámetros. Y digo liberar porque presentar sería una palabra muy grande para lo que han hecho. Básicamente tiraron el enlace de Torrent directamente en crudo en un mensaje de Twitter.
🧱 Diseño / 3D
▶️ Material Palette es capaz de extraer materiales, con sus diferentes canales, a partir de una única imagen.
🎥 Vídeo
▶️ En vídeo hay dos modelos que han desatado la locura estos días por su capacidad de animar a cualquier persona.
▪️MagicAnimate permite animar personajes a partir de archivos específicos y ya está disponible para todo el mundo en Replicate o en Colab.
▪️Animate Anyone todavía no tiene código pero parece que ofrece una calidad ligeramente superior.
▶️ Video Sketching consigue convertir vídeos en bocetos a línea, maneteniendo el movimiento original.
▶️ Diffusion Motion Transfer es un modelo que es capaz de modificar vídeos mediante prompts manteniendo el movimiento y dirección del mismo. En el vídeo se ve un ejemplo de un perro saltando al agua que es modificado por un caballo saltando al agua.
▶️ DynamicCrafter es parecido al anterior, pero además de poder controlar movimiento mediante texto, tiene un mayor grado de dinamismo en las generaciones. (El vídeo mola mucho)
📻️ Todo lo demás
▶️ Lo pongo aquí porque no sé dónde encaja mejor el tema de traducciones, pero, como puse arriba en La Cacharrería, Meta ha publicado una suite completa de traducción actualizando Seamless M4T. Múltiples idiomas, texto, audio, 2 segundos de latencia, mantiene la expresividad…el futuro, vaya.
▶️ Pasar de hacer una captura de pantalla a tener el código hecho y funcionado con v0, de Vercel, parece ciencia ficción. Recomiendo horrores ver el video entero (1 minuto y pico).
▶️ 1 de cada 5 adolescentes que han oído hablar de ChatGPT lo usan para sus deberes escolares en EEUU. Pocos me parecen.
🎓️ Formación y tutoriales
🍅 Salseo
▶️ Sam Altman es elegido como mejor CEO del año cuando empiezan a surgir rumores de nuevos problemas en OpenAI. También es verdad que Gary Marcus le tiene ganas y publica todo lo que pueda en contra.
Despedida
Como siempre, muchísimas gracias por leer esta newsletter. ¿Qué te ha parecido?
Si tienes cualquier sugerencia o comentario, por favor, házmelo llegar (estoy por aquí en Twitter) y lo tendré en cuenta para futuras ediciones.
Y si crees que le puede interesar a alguien, aquí tienes la forma de compartirla.
También puedes copiar y compartir directamente este enlace
¡Saludo