La IA de Microsoft convierte una sola foto en vídeos hablados realistas

Microsoft Research Asia
La investigación asiática de Microsoft ha presentado un modelo de inteligencia artificial capaz de producir vídeos de imitación increíblemente realistas a partir de una sola imagen y un clip de audio. Este avance suscita dudas sobre la credibilidad de los contenidos visuales y auditivos en Internet.
La inteligencia artificial ha superado sistemáticamente a los humanos en diversas pruebas comparativas, lo que ha llevado a muchos a preocuparse por el desplazamiento de puestos de trabajo por los algoritmos. Hemos visto cómo dispositivos inteligentes corrientes se han convertido en herramientas esenciales, desde la ayuda en las tareas cotidianas hasta la mejora de la productividad. Algunos modelos de IA pueden incluso producir sonidos realistas para vídeos silenciosos y generar contenidos de vídeo a partir de entradas de texto.
El marco VASA-1 de Microsoft supone otro avance significativo en este campo.
Dominio del realismo con VASA-1
Entrenado con aproximadamente 6.000 rostros parlantes reales del conjunto de datos VoxCeleb2, VASA-1 puede crear vídeos de gran realismo. Los sujetos animados no sólo se sincronizan con precisión con el audio proporcionado, sino que también muestran diversas expresiones faciales y movimientos naturales de la cabeza, todo ello derivado de una única imagen estática.
Aunque es similar al modelo de difusión Audio2Video de Alibaba, VASA-1 presume de un fotorrealismo y una precisión aún mayores. Puede generar vídeos sincronizados a 512×512 píxeles y 40 fotogramas por segundo con una latencia mínima.

Microsoft Research Asia
Aunque en las demostraciones del proyecto se utilizaron principalmente fotos de referencia generadas por IA de StyleGAN2 o DALL-E, un notable ejemplo del mundo real mostró la capacidad del marco para ir más allá de sus datos de entrenamiento: ¡una Mona Lisa que sabe rapear!
La página del proyecto muestra numerosos ejemplos de vídeos hablados y cantados creados a partir de una sola imagen combinada con una pista de audio. Además, la herramienta ofrece opciones para ajustar «la dinámica facial y las posturas de la cabeza», incluidas las emociones, las expresiones, la distancia de la cámara y la dirección de la mirada. Esta función aporta una gran flexibilidad.
Los rostros parlantes generados por IA redefinen las relaciones entre humanos e IA
Según el artículo que presenta este logro, «El auge de las caras parlantes generadas por IA abre las puertas a un futuro en el que la tecnología mejora las interacciones entre humanos y entre humanos e IA.
Esta tecnología tiene el potencial de mejorar la comunicación digital, aumentar la accesibilidad para las personas con dificultades de comunicación, revolucionar la educación a través de la tutoría interactiva de la IA y ofrecer apoyo terapéutico y social en la asistencia sanitaria.
Aunque estos avances son encomiables, los investigadores también reconocen los riesgos de un uso indebido. En una época en la que distinguir la realidad de la ficción en las noticias en línea es todo un reto, imagínese disponer de una herramienta que pueda hacer que cualquiera parezca decir cualquier cosa.
Desde bromas inofensivas, como recibir una llamada FaceTime de una celebridad querida, hasta actos más siniestros, como inculpar a alguien de un delito con una confesión inventada, estafar a personas haciéndose pasar por un familiar en apuros o manipular apoyos políticos para agendas controvertidas, todo ello presentado de forma convincente.
Sin embargo, los contenidos generados por el modelo VASA-1 presentan «artefactos identificables», y los investigadores tienen previsto no hacerlos públicos «hasta que estemos seguros de que la tecnología se utilizará de forma responsable y de conformidad con la normativa vigente».
En el servidor arXiv puede consultarse el documento de investigación en el que se detalla este proyecto.
Read the original article on: New Atlas
Read more: Effortless Book Writing with AI: A Step-by-Step Guide