Le GenEM de DeepMind révolutionne les comportements expressifs des robots

Introduction aux défis de la robotique

En robotique, les comportements expressifs sont essentiels pour une interaction fluide entre l’homme et le robot. Les robots travaillent aux côtés des humains dans divers environnements, des ateliers de fabrication aux environnements domestiques, ce qui nécessite une forme de communication qui va au-delà du langage verbal.

Les comportements expressifs, tels que les hochements de tête en signe d’accord ou les hochements de tête en signe de désaccord, jouent un rôle fondamental dans cette communication non verbale. Les méthodes traditionnelles, souvent basées sur des règles ou des modèles, sont limitées par leur rigidité. Ils nécessitent une programmation approfondie pour chaque robot et chaque scénario spécifique, ce qui rend le processus laborieux et peu flexible.

Ces systèmes ne peuvent pas s’adapter à de nouveaux contextes ou à de nouvelles préférences sans reprogrammation manuelle, ce qui entrave la capacité des robots à fonctionner efficacement dans des environnements humains dynamiques.

L’approche GenEM

GenEM, une nouvelle technique développée par des experts de l’Université de Toronto, de Google DeepMind et de Hoku Labs, apporte une solution transformatrice à ces défis. En s’appuyant sur le vaste réservoir de contexte social intégré dans les grands modèles linguistiques (LLM), GenEM transcende les contraintes des méthodes traditionnelles. Il génère dynamiquement des comportements expressifs pour les robots en interprétant l’environnement et en adaptant les actions aux capacités spécifiques du robot.

Grâce à un processus sophistiqué impliquant une série d’agents LLM, GenEM décode les instructions en langage naturel, les traduit en comportements exploitables et les exécute par l’intermédiaire de l’API du robot. Cette approche permet aux robots d’afficher une gamme de comportements expressifs, allant de gestes subtils à des séquences d’actions complexes, reflétant les manières nuancées dont les humains expriment leurs intentions et leurs émotions.

Avec GenEM, les robots acquièrent la flexibilité nécessaire pour s’adapter à divers contextes et interagir avec les humains de manière plus naturelle et intuitive, ce qui constitue une avancée significative dans le domaine de la robotique.

Polyvalence et adaptabilité

GenEM se distingue par sa polyvalence supérieure, qui constitue une nette amélioration par rapport aux méthodologies précédentes de génération de comportements robotiques. Les approches traditionnelles enferment souvent les robots dans un ensemble de réponses prédéfinies, ce qui limite leur utilité dans différents environnements et types d’interaction. GenEM rompt avec ce moule en offrant un cadre qui s’adapte à un large éventail de robots et de contextes situationnels, améliorant ainsi l’utilité et l’applicabilité des robots dans divers contextes.

Les robots équipés de GenEM peuvent interpréter et répondre aux actions humaines avec une compréhension nuancée, grâce à la profondeur du contexte disponible à partir de grands modèles de langage. Qu’il s’agisse d’interagir avec des personnes dans des établissements de santé, d’aider des clients dans des espaces de vente au détail ou de collaborer avec des travailleurs dans des environnements industriels, les robots peuvent modifier leur comportement en temps réel pour s’adapter aux besoins spécifiques et à la dynamique de l’environnement.

L’une des principales caractéristiques de GenEM est sa capacité à apprendre et à réagir aux réactions humaines.

Lorsque le comportement d’un robot est corrigé ou ajusté par un humain, GenEM intègre ces données, affinant les actions futures du robot pour mieux les aligner sur les attentes et les préférences humaines – améliorant ainsi les performances du robot et favorisant une collaboration plus naturelle et plus efficace entre les humains et les robots.

Méthodologie du GenEM

L’approche innovante de GenEM commence par un grand modèle de langage (LLM) qui interprète les instructions en langage naturel. Cette première étape est cruciale, car le MLD discerne l’intention qui sous-tend les instructions, ce qui prépare le terrain pour les actions ultérieures.
Un autre agent LLM prend alors le relais, traduisant les instructions interprétées en actions spécifiques au robot. Cette traduction n’est pas une simple conversion mot à mot, mais un processus assez complexe qui prend en compte les capacités uniques du robot et le contexte de la tâche.
L’étape finale implique encore un autre LLM, qui convertit les actions traduites en code exécutable. C’est ce code qui guide en fin de compte le comportement du robot, en veillant à ce que les actions soient conformes aux instructions initiales de l’homme et au cadre opérationnel du robot.

Intégrer le retour d’information des utilisateurs

Le retour d’information de l’utilisateur est au cœur de la conception de GenEM, permettant au système d’affiner et d’ajuster les comportements du robot au fil du temps. Lorsque les utilisateurs fournissent un retour d’information, le système traite ces données et identifie les points à améliorer ou à modifier dans le comportement du robot.

L’adaptabilité facilitée par le retour d’information de l’utilisateur signifie que les robots peuvent affiner leurs actions pour mieux s’aligner sur les attentes et les préférences de l’homme, ce qui conduit à des interactions plus naturelles et plus efficaces. Ce processus itératif, où le retour d’information conduit à la modification du comportement, est essentiel pour développer des robots capables de fonctionner de manière fluide dans des environnements centrés sur l’homme.

Essais et résultats

Au cours de la phase d’évaluation, les chercheurs ont comparé l’efficacité de GenEM à un ensemble de comportements scénarisés par des animateurs professionnels. Les critères de comparaison portaient sur la clarté et la compréhensibilité des actions du robot telles qu’elles sont perçues par les observateurs humains.

Les résultats de l’enquête menée auprès de dizaines d’utilisateurs ont révélé que les comportements générés par GenEM étaient comparables à ceux minutieusement élaborés par les animateurs.

Ces résultats confirment la capacité de GenEM à produire des comportements intuitifs et facilement interprétables par les humains, ce qui souligne le potentiel du système à améliorer considérablement les interactions entre robots et humains.

Orientations futures et potentiel

En explorant le potentiel du GenEM, les chercheurs reconnaissent la portée actuelle de ses essais, principalement dans des scénarios où les robots n’interagissent qu’une seule fois avec les humains. Ils reconnaissent également les limites posées par l’espace d’action étroit dans lequel le système a été testé. Malgré ces contraintes, GenEM présente un cadre prometteur pour améliorer les interactions robot-homme dans des environnements plus dynamiques et plus complexes.

Applications industrielles concrètes

L’adaptabilité et l’évolutivité du GenEM laissent penser qu’il pourrait transformer les interactions dans divers contextes, des soins de santé au service à la clientèle, où des comportements nuancés et réactifs sont essentiels. Par exemple, dans le domaine des soins de santé, les robots pourraient utiliser le GenEM pour interpréter plus efficacement les besoins des patients et réagir en adoptant des comportements qui les réconfortent et les aident de manière plus personnalisée.

Dans le domaine du service à la clientèle, les robots équipés de GenEM pourraient comprendre et répondre à un éventail plus large d’émotions et d’intentions des clients, offrant ainsi un service plus attentif et plus réactif. Les environnements de vente au détail pourraient également en bénéficier, les robots utilisant le GenEM pour interpréter les comportements des acheteurs et fournir une assistance ou des informations d’une manière intuitive et attrayante.

Davantage de recherches et d’essais sont nécessaires

Pour que le GenEM atteigne son plein potentiel, la recherche doit étendre ses essais à des scénarios d’interactions multiples, dans lesquels les robots s’engagent avec des individus ou des groupes sur des périodes plus longues. Cette expansion permettra aux chercheurs d’affiner la capacité du système à s’adapter et à répondre à l’évolution des indices et des contextes sociaux.

L’extension de l’application de GenEM à des robots disposant d’une plus grande variété d’actions primitives permettra d’obtenir des comportements plus sophistiqués et plus nuancés. Ces progrès pourraient déboucher sur des robots capables d’interactions plus complexes, comme la participation à des tâches collaboratives, l’adaptation à des changements inattendus dans leur environnement ou même l’adoption de comportements sociaux favorisant l’établissement de liens plus étroits entre l’homme et le robot.

À mesure que le GenEM progresse, il sera essentiel d’évaluer en permanence son impact sur les expériences des utilisateurs et les implications sociétales. Veiller à ce que les robots restent respectueux des normes humaines et de la vie privée tout en apportant des contributions significatives et positives à leur environnement sera la clé d’une intégration réussie de cette technologie dans la vie quotidienne.

Paul

mars 11, 2024

7 Min