El modelo Depth Pro de Apple crea mapas 3D a partir de imágenes 2D en segundos

By Marcílio Santos Nanotecnologia, Tech Comentarios desactivados

*“Depth Pro synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details”*

El equipo de Investigación de Aprendizaje Automático de Apple ha creado un modelo de IA fundacional para la «estimación de profundidad monocular de métrica cero». Depth Pro permite generar rápidamente mapas de profundidad 3D detallados a partir de una sola imagen 2D.

Nuestro cerebro interpreta la información visual a partir de dos fuentes: nuestros ojos. Cada ojo capta una perspectiva ligeramente distinta del mundo, y estas vistas se funden en una única imagen estereoscópica, cuyas variaciones nos ayudan a percibir la distancia de los objetos.

Muchas cámaras y smartphones utilizan un único objetivo para capturar imágenes, pero los desarrolladores pueden crear mapas de profundidad 3D utilizando metadatos de fotos 2D (como distancias focales y detalles del sensor) o analizando varias imágenes.

Sin embargo, el sistema Depth Pro prescinde de estos métodos y puede generar un detallado mapa de profundidad 3D a 2,25 megapíxeles a partir de una sola imagen en 0,3 segundos utilizando una unidad de procesamiento gráfico estándar.

Arquitectura del modelo de IA y estimación de la profundidad

La arquitectura del modelo de IA incluye un transformador de visión multiescala que procesa tanto el contexto general de una imagen como los detalles más finos, como el pelo, el pelaje y otras estructuras complejas. Puede estimar tanto la profundidad relativa como la absoluta, lo que permite a aplicaciones como la realidad aumentada situar con precisión objetos virtuales en espacios físicos.

Esta inteligencia artificial consigue estos resultados sin necesidad de un entrenamiento intensivo en conjuntos de datos específicos, utilizando una técnica conocida como aprendizaje de disparo cero, definida por IBM como un enfoque de aprendizaje automático en el que una inteligencia artificial puede reconocer y categorizar clases no vistas sin ejemplos etiquetados. Esto la hace muy adaptable.

Posibles aplicaciones de Depth Pro

En términos de aplicaciones, además de las capacidades de RA mencionadas, Depth Pro podría mejorar la eficacia de la edición fotográfica, facilitar la obtención de imágenes 3D en tiempo real con una cámara de una sola lente y ayudar a los vehículos y robots autónomos a percibir su entorno de forma más eficaz en tiempo real.

El proyecto se encuentra actualmente en fase de investigación, pero, cosa poco habitual en Apple, el código y la documentación de apoyo se publican como código abierto en GitHub. De este modo, desarrolladores, científicos y programadores podrán seguir avanzando en la tecnología.

Los investigadores han publicado un artículo en el que se detalla el proyecto en el servidor Arxiv y ofrecen una demostración en directo para quien esté interesado en experimentar la versión actual de primera mano.

Read the original article on: New Atlas

El modelo Depth Pro de Apple crea mapas 3D a partir de imágenes 2D en segundos