Microsoft desarrolla la IA que les falta a la mayoría de robots: la capacidad de decidir bien

La robótica avanza rápidamente, pero la mayoría de los robots sigue enfrentando una limitación fundamental: la dificultad para tomar decisiones precisas sobre qué acción realizar y dónde llevarla a cabo. Microsoft, junto a un consorcio de investigadores académicos, ha presentado un nuevo estándar, GroundedPlanBench, que busca resolver este desafío y acercar la inteligencia artificial de los robots a la toma de decisiones eficiente y contextualizada.

En los sistemas robóticos convencionales, el proceso de decisión se divide en dos etapas. Primero, un modelo de visión y lenguaje genera un plan en lenguaje natural. Después, otro sistema traduce ese plan en acciones físicas. Este enfoque fragmentado provoca errores frecuentes, ya que la desconexión entre el plan y la ejecución permite que las equivocaciones en una etapa se trasladen a la siguiente.

Errores típicos incluyen confusiones sobre qué objeto manipular o la invención de pasos innecesarios. Por ejemplo, si se le pide a un robot descartar vasos de papel, puede no identificar correctamente cuál vaso debe recoger o incluso realizar acciones no solicitadas. Estas fallas se agravan en entornos desordenados, donde los objetos son similares o numerosos.

GroundedPlanBench: un nuevo estándar para mejorar la toma de decisiones

Para enfrentar este desafío, Microsoft y sus socios han desarrollado GroundedPlanBench, un sistema que evalúa si los modelos de IA pueden planificar tareas y, al mismo tiempo, identificar con precisión dónde debe realizarse cada acción.

A diferencia de los sistemas tradicionales que solo utilizan texto, este estándar vincula cada acción a una ubicación específica en una imagen. Acciones como agarrar, colocar, abrir o cerrar se asocian a objetos o posiciones determinadas, obligando a la IA a conectar la decisión con el entorno físico real.

El benchmark incluye más de mil tareas basadas en interacciones reales de robots. Algunas instrucciones son directas, como colocar una cuchara en un plato, mientras que otras son abiertas, como ordenar una mesa. Esta variedad es crucial, ya que los robots suelen fallar cuando las indicaciones no son lo suficientemente claras.

En uno de los experimentos, un robot debía colocar cuatro servilletas en un sofá. La falta de especificidad en la instrucción hizo que el sistema repitiera la acción sobre la misma servilleta, incluso con descripciones aparentemente más precisas como “servilleta superior izquierda”. Esto evidencia que el lenguaje ambiguo sigue representando un obstáculo para la ejecución fiable de tareas complejas.

Aprendizaje basado en tareas reales

Para mejorar la capacidad de decisión, el equipo desarrolló un método de entrenamiento denominado Video-to-Spatially Grounded Planning (V2GP). Este sistema analiza videos de robots realizando tareas, detecta las interacciones con objetos, identifica dichos objetos y rastrea sus ubicaciones, generando así planes estructurados que vinculan cada acción con un punto específico.

Mediante este enfoque, los investigadores generaron más de 40.000 planes “arraigados”, que van desde acciones simples hasta secuencias complejas de hasta 26 pasos. Los modelos entrenados con este método demostraron una mejor capacidad para elegir acciones adecuadas y asociarlas con los objetos correctos, además de reducir errores repetitivos como actuar varias veces sobre el mismo elemento.

Un cambio de paradigma para la robótica

Pese a los avances, los retos persisten, especialmente en tareas largas y con instrucciones indirectas. Los investigadores advierten que los modelos deben ser capaces de razonar sobre secuencias extensas y mantener la coherencia a lo largo de múltiples pasos. Al comparar el nuevo enfoque con los sistemas tradicionales, se observó que estos últimos tienden a asignar múltiples acciones al mismo objeto o lugar, sobre todo cuando las órdenes son ambiguas.

La integración de planificación y localización en un único proceso reduce estos desajustes y permite decisiones más precisas. El equipo de Microsoft sugiere que futuras investigaciones podrían combinar este método con modelos predictivos capaces de anticipar las consecuencias de cada acción, lo que ayudaría a los robots a evitar errores en tiempo real.

Las conclusiones del estudio apuntan a una dirección clara para el futuro de la robótica: los sistemas que consideran de manera conjunta la acción y la ubicación tienen más probabilidades de operar con éxito en ambientes reales. Esta innovación representa un paso clave para que los robots puedan decidir y actuar de manera fiable en tareas cotidianas, acercándolos a una verdadera inteligencia artificial aplicada.

Microsoft desarrolla la IA que les falta a la mayoría de robots: la capacidad de decidir bien

GroundedPlanBench: un nuevo estándar para mejorar la toma de decisiones

Aprendizaje basado en tareas reales

Un cambio de paradigma para la robótica

Descubre las Mejores Islas y Lagunas de República Dominicana: Paraísos Naturales Imperdibles

Transacciones en el mercado de valores se triplican desde 2021 y rozan las 860,000

Cuidado con Copilot: Microsoft advierte que no se debe confiar en su IA para trabajo serio

Biografía de Santiago Matías (Alofoke): trayectoria y legado en los medios

Trump califica como “buenas noticias” la cancelación de programa de Jimmy Kimmel

Lápiz Conciente lanza canción dedicada a Hato Mayor como parte de su proyecto musical “Un Rap, Un Pueblo, Una Historia que Contar”

Ejército cancela a más de 20 de sus miembros en Dajabón por faltas graves

Otra encuesta: Abinader 61.6%, Fernández 20.4 y Martínez 9.4%

Tiroteo en una fiesta de Rochy RD en Jarabacoa

Descubre las Mejores Islas y Lagunas de República Dominicana: Paraísos Naturales Imperdibles

Transacciones en el mercado de valores se triplican desde 2021 y rozan las 860,000

Cuidado con Copilot: Microsoft advierte que no se debe confiar en su IA para trabajo serio

Oncología & Especialidades incorpora tecnología para diagnóstico temprano del cáncer de pulmón

Biografía de Santiago Matías (Alofoke): trayectoria y legado en los medios

Trump califica como “buenas noticias” la cancelación de programa de Jimmy Kimmel

Lápiz Conciente lanza canción dedicada a Hato Mayor como parte de su proyecto musical “Un Rap, Un Pueblo, Una Historia que Contar”

“Sin abejas no habría vida”, asegura Hecmilio Galvan

Ejército cancela a más de 20 de sus miembros en Dajabón por faltas graves

Otra encuesta: Abinader 61.6%, Fernández 20.4 y Martínez 9.4%

Tiroteo en una fiesta de Rochy RD en Jarabacoa

FEDA desarrolla sector arrocero de Miches con inversión de RD$37 millones

Microsoft desarrolla la IA que les falta a la mayoría de robots: la capacidad de decidir bien

GroundedPlanBench: un nuevo estándar para mejorar la toma de decisiones

Aprendizaje basado en tareas reales

Un cambio de paradigma para la robótica

Related Articles