InicioTecnologíaHabilidades avanzadas mediante el aprendizaje de la locomoción y la navegación local...

Habilidades avanzadas mediante el aprendizaje de la locomoción y la navegación local de extremo a extremo

-


El aprendizaje por refuerzo profundo ha sacado a los robots con patas de un entorno de laboratorio controlado y les ha permitido caminar en el mundo real. Sin embargo, para lograr la locomoción del robot, el controlador debe manejar los desajustes del modelo y los sensores ruidosos y reaccionar ante los pasos en falso y los deslizamientos. Las políticas actuales son insuficientes para lograr la agilidad y precisión de animales o humanos.

El robot con patas ANYmal sortea obstáculos, sube escaleras y salta un desnivel.  Crédito de la imagen: arXiv:2209.12827 [cs.RO]

El robot con patas ANYmal sortea obstáculos, sube escaleras y salta un desnivel. Crédito de la imagen: arXiv:2209.12827 [cs.RO]

Un artículo reciente en arXiv.org propone una formulación basada en la posición en la que el robot debe llegar a la ubicación de destino solo después de un tiempo definido. La recompensa de la tarea no está influenciada por la trayectoria que tomó el robot; por el contrario, se basa en la distancia final al objetivo.

Los investigadores muestran que el método propuesto permite que la política tenga éxito en terrenos como escaleras y pendientes con mayor dificultad. Además, permite entrenar comportamientos complejos como saltar por encima de huecos o subirse a cajas y da como resultado menores tasas de falla y consumo de energía.

El enfoque común para la navegación local en entornos desafiantes con robots con patas requiere planificación de rutas, seguimiento de rutas y locomoción, lo que generalmente requiere una política de control de locomoción que rastree con precisión una velocidad ordenada. Sin embargo, al dividir el problema de navegación en estas subtareas, limitamos las capacidades del robot ya que las tareas individuales no consideran el espacio de solución completo. En este trabajo, proponemos resolver el problema completo entrenando una política de extremo a extremo con aprendizaje de refuerzo profundo. En lugar de seguir continuamente una ruta precalculada, el robot necesita alcanzar una posición objetivo dentro de un tiempo determinado. El éxito de la tarea solo se evalúa al final de un episodio, lo que significa que la política no necesita alcanzar el objetivo lo más rápido posible. Es libre de seleccionar su camino y la marcha de locomoción. Entrenar una política de esta manera abre un conjunto más amplio de posibles soluciones, lo que permite que el robot aprenda comportamientos más complejos. Comparamos nuestro enfoque con el seguimiento de la velocidad y, además, mostramos que la dependencia del tiempo de la recompensa de la tarea es fundamental para aprender con éxito estos nuevos comportamientos. Finalmente, demostramos el despliegue exitoso de políticas en un robot cuadrúpedo real. El robot es capaz de cruzar terrenos desafiantes, que antes no eran posibles, al tiempo que utiliza un modo de andar más eficiente desde el punto de vista energético y logra una mayor tasa de éxito.

Artículo de investigación: Rudin, N., Hoeller, D., Bjelonic, M. y Hutter, M., «Habilidades avanzadas mediante el aprendizaje de la locomoción y la navegación local de extremo a extremo», 2022. Enlace: https://arxiv.org/abs/2209.12827






Source link

Deja un comentario

- Publicidad -spot_img

Selección