Google lleva la Inteligencia Artificial a robots humaniodes

Google lleva la Inteligencia Artificial a robots humaniodes

En los relatos de ciencia ficción, la inteligencia artificial suele dar vida a todo tipo de robots inteligentes y capaces. Hasta ahora, la IA había estado inclaustrada en un chat, pero con el anuncio de Google DeepMind esto queda en el pasado: la nueva versión de su modelo Gemini fusiona el lenguaje, la visión y la acción física para crear robots más adaptables y potencialmente útiles.

La empresa compartió una serie de videos en los que se veían robots equipados con el nuevo modelo Gemini Robotics; este manipulaba objetos en respuesta a órdenes habladas. Los brazos del robot doblena papel,   entregan verduras, colocan suavemente un par de lentes en un estuche y completan otras tareas. Los robots se basan en el nuevo mecanismo que relaciona los objetos visibles con posibles acciones e indica lo que se tiene que hacer.

Google DeepMind también anunció una versión de su modelo llamada Gemini Robotics-ER (cognición encarnada), que solo tiene comprensión visual y espacial. La idea es que otros investigadores en robótica utilicen este modelo para entrenar sus propios modelos de control de las acciones de los robots.

En un video de demostración, el equipo de Google utilizó el modelo para controlar un robot humanoide llamado Apollo, de la startup Apptronik. El robot conversa con un humano y mueve letras por el tablero de una mesa cuando se le ordena.

"Hemos sido capaces de trasladar a la robótica la comprensión general de Gemini 2.0", declaró Kanishka Rao, investigador de robótica de Google DeepMind que dirigió el trabajo. La división de IA de Google afirma que el nuevo modelo es capaz de controlar distintos robots en cientos de escenarios específicos que antes no se incluían en su entrenamiento: "Una vez que la máquina comprende el concepto general, se vuelve mucho más general y útil.

Los avances que dieron lugar a potentes chatbots, como ChatGPT de OpenAI y Gemini de Google,  han suscitado la esperanza de una revolución similar en la robótica, pero aún quedan grandes obstáculos. Los grandes modelos de lenguaje (LLM) que impulsan a los chatbots modernos se crearon a partir de algoritmos generales, datos de entrenamiento a gran escala y grandes cantidades de potencia informática. Aunque todavía no es posible reunir datos de entrenamiento de robots a tal magnitud, los LLM pueden servir de base para modelos robóticos más capaces, porque contienen una gran cantidad de información sobre el mundo físico y pueden comunicarse muy bien. Los investigadores en robótica combinan los LLM con nuevos enfoques de aprendizaje mediante teleoperación o simulación que permiten a los prototipos robóticos practicar acciones físicas de forma más eficiente.

Google y sus trabajadores han anunciado una serie de proyectos de investigación que muestran el potencial de estos enfoques. En el pasado, WIRED detalló que varios investigadores clave de la compañía habían renunciado para fundar la startup Physical Intelligence; el laboratorio dirigido por el Instituto de Investigación Toyota también está realizando un trabajo similar.

Google DeepMind demostró que sigue el ritmo de estos esfuerzos en septiembre de 2024, al revelar un robot que combina LLM y nuevos métodos de entrenamiento para realizar tareas como atarse los cordones de los zapatos y doblar la ropa cuando se le da la orden.

 

 

Fuente: Wired.