Un nuevo método permite a los robots cartografiar una escena e identificar objetos para completar tareas
Imagina una cocina desordenada, empezando por una encimera llena de paquetes de salsa. Si su objetivo es limpiar la encimera, puede recoger todos los paquetes a la vez. Pero si quieres separar primero los paquetes de mostaza, los ordenarías por tipo. Y si buscas mostaza Grey Poupon, tendrás que buscar con más cuidado para encontrar la marca exacta.
Los ingenieros del MIT han desarrollado un método que permite a los robots tomar decisiones intuitivas y específicas para cada tarea. Su nuevo sistema, llamado Clio, permite a un robot identificar las partes importantes de una escena en función de las tareas que se le hayan asignado. Clio procesa una lista de tareas en lenguaje natural, determinando el nivel de detalle necesario para interpretar su entorno y «recordar» sólo los aspectos relevantes.
En las pruebas, Clio se utilizó en entornos como un cubículo desordenado y un edificio de cinco plantas, donde el robot segmentó escenas basándose en tareas como «mover estante de revistas» y «coger botiquín». El sistema también se probó en un robot cuadrúpedo en tiempo real mientras exploraba un edificio de oficinas, reconociendo sólo los objetos relacionados con su tarea, como recuperar un juguete para perros mientras ignoraba el material de oficina.
Una herramienta versátil para la robótica de tareas específicas
Bautizada con el nombre de la musa griega de la historia por su capacidad para recordar elementos clave, Clio está diseñada para su uso en diversos entornos, como búsqueda y rescate, tareas domésticas y trabajo en fábricas. Según Luca Carlone, profesor asociado del Departamento de Aeronáutica y Astronáutica del MIT, Clio ayuda a los robots a comprender su entorno y centrarse en lo necesario para completar su misión.
El equipo presenta sus conclusiones en un estudio publicado hoy en la revista IEEE Robotics and Automation Letters. Entre los coautores de Carlone figuran los miembros del laboratorio SPARK Dominic Maggio, Yun Chang, Nathan Hughes y Lukas Schmid, así como los investigadores del laboratorio Lincoln del MIT Matthew Trang, Dan Griffith, Carlyn Dougherty y Eric Cristofalo.
Transición del reconocimiento de objetos en conjuntos cerrados al reconocimiento de objetos en conjuntos abiertos
Los avances en visión por ordenador y procesamiento del lenguaje natural han permitido a los robots identificar objetos, pero antes esto se limitaba a entornos controlados «cerrados» con objetos predefinidos. Recientemente, los investigadores han adoptado un enfoque de «conjunto abierto», utilizando el aprendizaje profundo para entrenar redes neuronales en miles de millones de imágenes y texto. Estas redes ahora pueden reconocer nuevos objetos en escenas desconocidas. Sin embargo, sigue siendo un desafío determinar cómo segmentar una escena de una manera relevante para la tarea. Como señala Maggio, el nivel de detalle debe variar en función de la tarea del robot para crear un mapa útil.
Con Clio, el equipo del MIT diseñó robots que interpretan su entorno con un nivel de detalle que se ajusta automáticamente a la tarea. Por ejemplo, si la tarea consiste en mover una pila de libros, el robot debe reconocer toda la pila, mientras que debe identificar sólo un libro verde cuando ése sea el foco de atención.
Integración de la visión por ordenador y los modelos lingüísticos para mejorar el reconocimiento de objetos
El método combina visión por ordenador avanzada y grandes modelos lingüísticos, utilizando redes neuronales entrenadas en millones de imágenes y texto. También emplean herramientas de mapeo que segmentan las imágenes, cuya relevancia analiza la red neuronal.
Aplicando el concepto de «cuello de botella informativo», comprimen los datos de las imágenes para conservar sólo los segmentos relevantes para la tarea, lo que permite al robot centrarse en los elementos necesarios.
Clio se probó en entornos reales, como el desordenado apartamento de Maggio, donde identificó rápidamente segmentos relevantes para tareas como «mover un montón de ropa». El sistema también se utilizó en tiempo real en el robot Spot de Boston Dynamics, que cartografió e identificó objetos en una oficina.
Este método generó mapas en los que sólo se destacaban los objetos objetivo, lo que permitió al robot completar las tareas con eficacia. Ejecutar Clio en tiempo real supuso un gran avance, ya que los métodos anteriores requerían horas de procesamiento.
De cara al futuro, el equipo tiene previsto mejorar Clio para que pueda realizar tareas más complejas, como «encontrar supervivientes» o «restablecer el suministro eléctrico», acercándose así a una comprensión de las tareas similar a la humana.
Read the original article on: TechXplore
Read more: Robotic Arm 3D-Prints Two-Story House
Deja una respuesta