La robótica avanza rápidamente, pero la mayoría de los robots sigue enfrentando una limitación fundamental: la dificultad para tomar decisiones precisas sobre qué acción realizar y dónde llevarla a cabo. Microsoft, junto a un consorcio de investigadores académicos, ha presentado un nuevo estándar, GroundedPlanBench, que busca resolver este desafío y acercar la inteligencia artificial de los robots a la toma de decisiones eficiente y contextualizada.
En los sistemas robóticos convencionales, el proceso de decisión se divide en dos etapas. Primero, un modelo de visión y lenguaje genera un plan en lenguaje natural. Después, otro sistema traduce ese plan en acciones físicas. Este enfoque fragmentado provoca errores frecuentes, ya que la desconexión entre el plan y la ejecución permite que las equivocaciones en una etapa se trasladen a la siguiente.
Errores típicos incluyen confusiones sobre qué objeto manipular o la invención de pasos innecesarios. Por ejemplo, si se le pide a un robot descartar vasos de papel, puede no identificar correctamente cuál vaso debe recoger o incluso realizar acciones no solicitadas. Estas fallas se agravan en entornos desordenados, donde los objetos son similares o numerosos.
GroundedPlanBench: un nuevo estándar para mejorar la toma de decisiones
Para enfrentar este desafío, Microsoft y sus socios han desarrollado GroundedPlanBench, un sistema que evalúa si los modelos de IA pueden planificar tareas y, al mismo tiempo, identificar con precisión dónde debe realizarse cada acción.
A diferencia de los sistemas tradicionales que solo utilizan texto, este estándar vincula cada acción a una ubicación específica en una imagen. Acciones como agarrar, colocar, abrir o cerrar se asocian a objetos o posiciones determinadas, obligando a la IA a conectar la decisión con el entorno físico real.
El benchmark incluye más de mil tareas basadas en interacciones reales de robots. Algunas instrucciones son directas, como colocar una cuchara en un plato, mientras que otras son abiertas, como ordenar una mesa. Esta variedad es crucial, ya que los robots suelen fallar cuando las indicaciones no son lo suficientemente claras.
En uno de los experimentos, un robot debía colocar cuatro servilletas en un sofá. La falta de especificidad en la instrucción hizo que el sistema repitiera la acción sobre la misma servilleta, incluso con descripciones aparentemente más precisas como “servilleta superior izquierda”. Esto evidencia que el lenguaje ambiguo sigue representando un obstáculo para la ejecución fiable de tareas complejas.
Aprendizaje basado en tareas reales
Para mejorar la capacidad de decisión, el equipo desarrolló un método de entrenamiento denominado Video-to-Spatially Grounded Planning (V2GP). Este sistema analiza videos de robots realizando tareas, detecta las interacciones con objetos, identifica dichos objetos y rastrea sus ubicaciones, generando así planes estructurados que vinculan cada acción con un punto específico.
Mediante este enfoque, los investigadores generaron más de 40.000 planes “arraigados”, que van desde acciones simples hasta secuencias complejas de hasta 26 pasos. Los modelos entrenados con este método demostraron una mejor capacidad para elegir acciones adecuadas y asociarlas con los objetos correctos, además de reducir errores repetitivos como actuar varias veces sobre el mismo elemento.
Un cambio de paradigma para la robótica
Pese a los avances, los retos persisten, especialmente en tareas largas y con instrucciones indirectas. Los investigadores advierten que los modelos deben ser capaces de razonar sobre secuencias extensas y mantener la coherencia a lo largo de múltiples pasos. Al comparar el nuevo enfoque con los sistemas tradicionales, se observó que estos últimos tienden a asignar múltiples acciones al mismo objeto o lugar, sobre todo cuando las órdenes son ambiguas.
La integración de planificación y localización en un único proceso reduce estos desajustes y permite decisiones más precisas. El equipo de Microsoft sugiere que futuras investigaciones podrían combinar este método con modelos predictivos capaces de anticipar las consecuencias de cada acción, lo que ayudaría a los robots a evitar errores en tiempo real.
Las conclusiones del estudio apuntan a una dirección clara para el futuro de la robótica: los sistemas que consideran de manera conjunta la acción y la ubicación tienen más probabilidades de operar con éxito en ambientes reales. Esta innovación representa un paso clave para que los robots puedan decidir y actuar de manera fiable en tareas cotidianas, acercándolos a una verdadera inteligencia artificial aplicada.




