29 de septiembre de 2022

499

El aprendizaje por refuerzo profundo ha sacado a los robots con patas de un entorno de laboratorio controlado y les ha permitido caminar en el mundo real. Sin embargo, para lograr la locomoción del robot, el controlador debe manejar los desajustes del modelo y los sensores ruidosos y reaccionar ante los pasos en falso y los deslizamientos. Las políticas actuales son insuficientes para lograr la agilidad y precisión de animales o humanos.

Habilidades avanzadas mediante el aprendizaje de la locomoción y la navegación local de extremo a extremo

El robot con patas ANYmal sortea obstáculos, sube escaleras y salta un desnivel. Crédito de la imagen: arXiv:2209.12827 [cs.RO]

Un artículo reciente en arXiv.org propone una formulación basada en la posición en la que el robot debe llegar a la ubicación de destino solo después de un tiempo definido. La recompensa de la tarea no está influenciada por la trayectoria que tomó el robot; por el contrario, se basa en la distancia final al objetivo.

Los investigadores muestran que el método propuesto permite que la política tenga éxito en terrenos como escaleras y pendientes con mayor dificultad. Además, permite entrenar comportamientos complejos como saltar por encima de huecos o subirse a cajas y da como resultado menores tasas de falla y consumo de energía.

El enfoque común para la navegación local en entornos desafiantes con robots con patas requiere planificación de rutas, seguimiento de rutas y locomoción, lo que generalmente requiere una política de control de locomoción que rastree con precisión una velocidad ordenada. Sin embargo, al dividir el problema de navegación en estas subtareas, limitamos las capacidades del robot ya que las tareas individuales no consideran el espacio de solución completo. En este trabajo, proponemos resolver el problema completo entrenando una política de extremo a extremo con aprendizaje de refuerzo profundo. En lugar de seguir continuamente una ruta precalculada, el robot necesita alcanzar una posición objetivo dentro de un tiempo determinado. El éxito de la tarea solo se evalúa al final de un episodio, lo que significa que la política no necesita alcanzar el objetivo lo más rápido posible. Es libre de seleccionar su camino y la marcha de locomoción. Entrenar una política de esta manera abre un conjunto más amplio de posibles soluciones, lo que permite que el robot aprenda comportamientos más complejos. Comparamos nuestro enfoque con el seguimiento de la velocidad y, además, mostramos que la dependencia del tiempo de la recompensa de la tarea es fundamental para aprender con éxito estos nuevos comportamientos. Finalmente, demostramos el despliegue exitoso de políticas en un robot cuadrúpedo real. El robot es capaz de cruzar terrenos desafiantes, que antes no eran posibles, al tiempo que utiliza un modo de andar más eficiente desde el punto de vista energético y logra una mayor tasa de éxito.

Artículo de investigación: Rudin, N., Hoeller, D., Bjelonic, M. y Hutter, M., «Habilidades avanzadas mediante el aprendizaje de la locomoción y la navegación local de extremo a extremo», 2022. Enlace: https://arxiv.org/abs/2209.12827

Source link

Artículo anterior

Guinea: La ONU promete apoyo para la justicia y la rendición de cuentas, mientras comienza el juicio por la masacre del estadio |

Artículo siguiente

Educación y conocimientos sobre el tema de los migrantes

Habilidades avanzadas mediante el aprendizaje de la locomoción y la navegación local de extremo a extremo

Selección

Gaza: Familias privadas de los medios de supervivencia, advierten a los trabajadores humanitarios

‘Los márgenes del presupuesto’: igualdad de género en los países en desarrollo subfinanciados por $ 420 mil millones anualmente

Los ciudadanos ven mejoras en los sistemas de justicia en la UE, encuentra informe

Sudán: ONU advierte sobre desplazamiento y inundaciones inminentes

Crisis de Irán: la ONU permanece y libro

La web

Categorías

Últimos artículos