VASA-1 la nueva IA de Microsoft

Microsoft presenta VASA-1, la IA que genera avatares hiperrealistas Microsoft ha creado una IA capaz de generar rostros que hablan a partir de una foto y una pista de audio.

Abril 19, 2024 - 09:53

0 219

Microsoft ha presentado una inteligencia artificial capaz de generar avatares hiperrealistas a partir de una imagen y un archivo de voz. VASA-1 puede darle vida a tus fotografías añadiendo expresiones, al tiempo que sincroniza el movimiento de tus labios con el clip de sonido. El resultado final es sorprendente y podría revolucionar la forma como interactuamos en el mundo digital.

De acuerdo con los investigadores, VESA-1 captura toda la gama de expresiones humanas, incluidos los movimientos naturales de la cabeza, para generar avatares parlantes verdaderamente creíbles. Esto es posible al separar elementos como los rasgos faciales, la posición de la cabeza y las expresiones, lo que permite un control detallado de cada atributo y la posibilidad de editar el contenido por separado.

VESA-1 va más allá de otros modelos de inteligencia artificial que añaden audio a una imagen y sincronizan el movimiento de labios. Los investigadores han creado expresiones realistas con movimientos en un espacio definido. Esto produce una imagen más auténtica y menos rígida.

"Consideramos todas las dinámicas faciales posibles, incluido el movimiento de los labios, la expresión (sin labios), la mirada y el parpadeo, entre otras, como una única variable latente y modelamos su distribución probabilística de manera unificada", mencionan los autores de Microsoft Research. "Nuestro modelado holístico de la dinámica facial, junto con los patrones de movimiento de la cabeza aprendidos conjuntamente, conduce a la generación de una amplia gama de comportamientos de conversación emotivos y realistas".

Cómo funciona VASA-1, la nueva inteligencia artificial de Microsoft

Microsoft entrenó su modelo con una colección gigante de videos con personas hablando. La idea era crear un sistema que pudiera entender los rostros y separar diferentes aspectos de ellos, como su identidad, expresión y movimiento de la cabeza, asignando códigos a cada uno de ellos. Estas claves se usarían para crear rostros nuevos, lo que permitiría cambiar la expresión de alguien en un video sin afectar su identidad, o hacer que su cabeza asienta sin alterar su sonrisa.

Para conseguirlo, los investigadores utilizaron un enfoque 3D para capturar más detalles sobre la cara y cómo se mueve en un espacio tridimensional. El modelo de difusión acepta señales adicionales, como la dirección de la mirada principal y la distancia de la cabeza, así como emociones. Con la misma pista de audio, VASA-1 puede generar avatares felices, enojados o nerviosos (con exceso de expresiones) que buscan acercarse al realismo.

VASA-1 puede producir videos de alta calidad en una resolución de 512 x 512 píxeles a 45 fotogramas por segundo. Los investigadores destacaron su eficiencia, ya que la herramienta puede ejecutarse en un ordenador con una GPU NVIDIA RTX 4090.

La inteligencia artificial de Microsoft no se limita a fotografías reales, sino que también puede aplicarse en ilustraciones o pinturas, como la Mona Lisa cantando Paparazzi. Como dato adicional, todos los ejemplos presentados se construyeron a partir de fotografías generadas con DALL-E 3 y StyleGAN2. "Estamos explorando habilidades visuales afectivas para personajes virtuales e interactivos, NO haciéndonos pasar por ninguna persona en el mundo real", mencionó la empresa.

Los avatares hiperrealistas podrían conducir a la desinformación

Uno de los peligros latentes de estos modelos es que podrían emplearse para engañar a los usuarios. Ante ello, Microsoft declaró que está en contra de cualquier aplicación negativa y señalaron que no publicarán esta herramienta hasta no estar seguros de que su tecnología se utilizará de manera responsable.

"Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y estamos interesados en aplicar nuestra técnica para avanzar en la detección de falsificaciones. Nos dedicamos a desarrollar la IA de manera responsable, con el objetivo de promover el bienestar humano"

Fuente: Hypertextual