L'IA prend part au jeu populaire Minecraft dans le cadre du concours d'apprentissage automatique – Resoudre les problemes d’un serveur MineCraft

Pour voir le clivage entre la meilleure intelligence artificielle et les capacités mentales d'un enfant de sept ans, ne cherchez pas plus loin que le célèbre jeu vidéo Minecraft. Un jeune humain peut apprendre à trouver un diamant rare dans le jeu après avoir visionné une démonstration de 10 minutes sur YouTube. L'intelligence artificielle (IA) est nulle part près. Mais dans le cadre d’un concours informatique unique qui se termine ce mois-ci, les chercheurs espèrent réduire l’écart entre la machine et l’enfant, contribuant ainsi à réduire la puissance de calcul nécessaire à la formation des IA.

Les concurrents peuvent prendre jusqu'à quatre jours et ne pas utiliser plus de huit millions de pas pour entraîner leurs IA à trouver un diamant. C’est encore beaucoup plus longtemps que cela prendrait un enfant à apprendre, mais beaucoup plus vite que les modèles d’IA classiques de nos jours.

Le concours est conçu pour stimuler les progrès dans une approche appelée apprentissage par imitation. Cela contraste avec une technique populaire connue sous le nom d'apprentissage par renforcement, dans laquelle les programmes tentent des milliers ou des millions d'actions aléatoires de manière empirique afin de déterminer le meilleur processus. L'apprentissage par renforcement a permis de générer des recommandations pour les utilisateurs de Netflix, de créer des moyens de former des bras robotiques dans des usines et même de surpasser les humains en matière de jeu. Mais cela peut demander beaucoup de temps et de puissance de calcul. Les tentatives d'utilisation de l'apprentissage par renforcement pour créer des algorithmes permettant de conduire une voiture en toute sécurité ou de remporter des jeux sophistiqués tels que Go ont impliqué des centaines ou des milliers d'ordinateurs travaillant en parallèle pour exécuter collectivement des simulations d'une centaine d'années – chose que seuls les gouvernements les plus enracinés et les entreprises peuvent se permettre.

L'apprentissage par imitation peut améliorer l'efficacité du processus d'apprentissage en imitant la manière dont les humains ou même d'autres algorithmes d'IA traitent la tâche. Et l’événement de codage, connu sous le nom de concours MineRL (prononcé «minéral»), encourage les concurrents à utiliser cette technique pour apprendre à l’IA à jouer au jeu.

Selon William Guss, candidat au doctorat en théorie de l’apprentissage en profondeur à la Carnegie Mellon University de Pittsburgh, en Pennsylvanie, les techniques d’apprentissage par renforcement n’auraient aucune chance de réussir dans ce concours. Il est également responsable de l’équipe organisatrice du concours MineRL. En travaillant au hasard, une IA ne pourrait réussir qu'à abattre un arbre ou deux dans la limite des huit millions de pas de la compétition – et ce n'est qu'un des préalables à la création d'une pioche en fer pour extraire les diamants du jeu. «L'exploration est vraiment très difficile», déclare Guss. "L'apprentissage par imitation vous donne une bonne priorité sur votre environnement."

Guss et ses collègues espèrent que le concours, sponsorisé entre autres par Carnegie Mellon et Microsoft, pourrait avoir un impact plus grand que la localisation. Minecraft gemmes, en inspirant les codeurs à repousser les limites de l’apprentissage par imitation. Une telle recherche pourrait en fin de compte aider à former l'IA afin qu'elle puisse mieux interagir avec les humains dans un large éventail de situations, ainsi que dans des environnements de navigation remplis d'incertitude et de complexité. «L’apprentissage par imitation est au cœur de l’apprentissage et du développement de l’intelligence», déclare Oriol Vinyals, chercheur scientifique chez Google DeepMind à Londres et membre du comité consultatif de MineRL Competition. "Cela nous permet d'apprendre rapidement une tâche sans avoir à trouver la solution que l'évolution a trouvée" à partir de zéro "."

Jeu par exemple

Le groupe derrière la compétition dit que Minecraft est particulièrement bon comme terrain d'entraînement virtuel. Les joueurs du jeu présentent de nombreux comportements intelligents. Dans son mode de survie populaire, ils doivent se défendre contre les monstres, les aliments fourragers ou agricoles et rassembler continuellement des matériaux pour construire des structures et fabriquer des outils. Les nouveaux joueurs doivent apprendre MinecraftVersion de la physique, ainsi que de découvrir des recettes pour transformer les matériaux en ressources ou en outils. Le jeu est devenu célèbre pour la créativité qu’il libère chez ses joueurs, qui construisent des versions virtuelles en bloc d’une grande variété de choses: la Tour Eiffel, Disneyland, le trench Death Star de Star Wars et même un ordinateur de travail à l’intérieur du jeu.

Pour créer des données d’entraînement pour le concours, les organisateurs de MineRL ont créé un Minecraft serveur et recruté du personnel pour relever des défis conçus pour illustrer des tâches spécifiques, telles que la confection de divers outils. Ils ont finalement capturé 60 millions d'exemples d'actions pouvant être entreprises dans une situation donnée et environ 1 000 heures de comportement enregistré à donner aux équipes. Les enregistrements constituent l’un des premiers et des plus importants ensembles de données consacrés spécifiquement à la recherche sur l’apprentissage par imitation.

Le concours met l'accent sur l'utilisation de l'imitation pour «apprendre» de façon à ce que les IA n'aient pas besoin de passer autant de temps à explorer l'environnement pour découvrir ce qui est possible à partir des principes de base, mais plutôt à utiliser les connaissances que les humains ont acquises, déclare Rohin. Shah, candidat au doctorat en informatique à l’Université de Californie, à Berkeley, qui dirige le programme axé sur l’IA Bulletin d'alignement. "A ma connaissance, il n'y a pas eu de compétition d'IA centrée sur cette question en particulier."

Encouragés par le cloud computing et une offre abondante de données, l’apprentissage par renforcement a généralement généré la part du lion des nouveaux documents de recherche sur l’IA. Mais l’intérêt pour l’apprentissage par imitation s’intensifie, en partie parce que les chercheurs luttent contre les limites de la méthode des essais et des erreurs. L’apprentissage de cette manière nécessite des données de formation qui montrent toutes les possibilités et les conséquences de différentes interactions environnementales, explique Katja Hofmann, chercheuse principale du groupe Game Intelligence chez Microsoft Research à Cambridge, au Royaume-Uni, et membre du comité d’organisation du concours MineRL Competition (acquise par Microsoft). MinecraftDéveloppeur pour 2,5 milliards de dollars américains en 2014). Il peut être difficile d’obtenir de telles données dans des environnements complexes et réels, dans lesquels il n’est ni facile ni sûr de tirer parti de toutes les conséquences de mauvaises décisions.

Prenez des voitures autonomes, par exemple. Leur formation, principalement par le biais de l'apprentissage par renforcement, nécessiterait des milliers, voire des millions d'essais, pour bien comprendre les différences entre une conduite sûre et une conduite imprudente. Mais les simulations de conduite ne peuvent pas inclure toutes les conditions possibles qui pourraient conduire à un accident dans le monde réel. Et il serait tout à fait dangereux de permettre à une voiture autonome d'apprendre par des chutes répétées sur les routes publiques. Au-delà des problèmes de sécurité, l'apprentissage par renforcement peut coûter cher et nécessiter une puissance de calcul de plusieurs millions de dollars, explique Hofmann.

Contrairement à l’apprentissage par renforcement pur à partir de zéro, l’apprentissage par imitation prend des raccourcis, ce qui donne un bon départ en apprenant à partir d’exemples. Il a déjà trouvé sa place dans les utilisations parallèlement à l'apprentissage par renforcement. Certaines des démonstrations d’intelligence artificielle les plus célèbres de ces dernières années, y compris la description des maîtres de l’homme humain par l’alpha 2017 de l’algorithme AlphaGo, ont combiné ces deux approches, en commençant par un modèle fondamental généré par l’apprentissage par imitation.

L'apprentissage par imitation a aussi des limites. La première est qu’elle privilégie les solutions qui ont déjà été démontrées dans les exemples d’apprentissage. Une IA formée de cette manière peut donc être inflexible. «Si le système d’intelligence artificielle commet une erreur ou s’écarte quelque peu de ce que ferait un humain, il se retrouvera dans un nouveau contexte différent de celui observé dans les manifestations», explique Shah. "Comme il n’a pas vu cette situation, il devient encore plus confus et commet davantage d’erreurs, ce qui aggrave encore la situation et conduit à de très mauvais échecs."

Néanmoins, un certain nombre de chercheurs estiment que la technique présente un grand potentiel, notamment lorsqu'il s'agit de former une IA pour la poursuite d'objectifs spécifiques. «Le bon côté de l’apprentissage par imitation, par opposition à l’apprentissage par renforcement, c’est que vous obtenez des démonstrations de succès», déclare Debadeepta Dey, chercheuse principale du groupe Systèmes adaptatifs et interaction chez Microsoft Research à Redmond, dans l’État de Washington. "Cela aide vraiment à accélérer l'apprentissage."

Pour accéder au trésor de diamant, les joueurs ou agents du concours MineRL contrôlés par l'IA doivent maîtriser un processus en plusieurs étapes. Premièrement, ils ramassent du bois et du fer pour faire des pioches. Ensuite, ils construisent des torches pour éclairer le chemin. Ils pourraient également porter un seau d'eau pour éteindre les coulées de lave souterraines. Une fois tout ce qui est préparé, l’intelligence artificielle peut commencer à explorer des puits et des grottes d’exploitation minière et à creuser un tunnel sous le sol pour chercher du minerai de diamant.

Les concurrents doivent former leurs IA avec un ensemble de matériel ne comprenant pas plus de six cœurs de traitement centralisés et une carte graphique NVIDIA, ce que la plupart des laboratoires de recherche peuvent se permettre grâce aux services de cloud computing. Plus de 900 équipes se sont inscrites au premier tour de la compétition et 39 ont finalement envoyé des agents d’IA. Les dix groupes qui ont le plus progressé dans l’entraînement des IA à la découverte des diamants se sont qualifiés pour le second et dernier tour. Certaines de ces personnes ont réussi à obtenir du minerai de fer et à construire un four, deux autres conditions préalables à la fabrication d'une pioche en fer. Mais Guss ne s'attend pas à ce que les agents des équipes trouvent un diamant, du moins lors de cette première compétition.

Bien que le concours vise un objectif spécifique, il pourrait stimuler une recherche plus large sur l'IA avec Minecraft. «Je suis particulièrement intéressé par Minecraft car c’est un exemple d’environnement dans lequel les êtres humains poursuivent des objectifs divers: il n’ya «pas une chose» que les humains font Minecraft, Dit Shah. "Cela en fait un banc d'essai beaucoup plus approprié pour les techniques qui tentent d'apprendre des objectifs humains."

Et même si les graphismes et les règles du jeu ne reflètent pas parfaitement la réalité physique, développer des moyens plus efficaces d’entraînement des IA aux Minecraft pourrait se traduire par un apprentissage plus rapide de l'IA dans des domaines tels que la robotique. MineRL "pourrait donner des résultats qui auraient un impact dans des domaines du monde réel, tels que l'assemblage robotique d'objets complexes ou dans tout autre domaine dans lequel l'apprentissage d'un comportement complexe est requis", déclare Joni Pajarinen, responsable du groupe de recherche au sein du laboratoire Systèmes intelligents autonomes à l'Université technique de Darmstadt en Allemagne.

Lorsque la finale de la compétition se terminera le 25 novembre, Guss et d'autres organisateurs examineront les soumissions afin de déterminer quelle IA sera le chasseur de diamants le plus avancé. Les résultats définitifs seront rendus publics le 6 décembre, juste avant la NeurIPS (Conférence sur les systèmes de traitement de l'information neuronale) à Vancouver, Canada, où les dix équipes finalistes sont invitées à présenter leurs résultats.

Si le concours MineRL s’intègre et devient une tradition récurrente, il pourrait servir de repère public pour suivre les progrès en matière d’apprentissage par imitation. «Il semble très probable que MineRL encouragera davantage de recherches sur l’apprentissage par imitation», déclare Shah. "Reste à savoir si l'apprentissage par imitation aura une signification pour les applications du monde réel, mais je suis optimiste."

Cet article est reproduit avec autorisation et a été publié le 26 novembre 2019.

L'IA prend part au jeu populaire Minecraft dans le cadre du concours d'apprentissage automatique – Resoudre les problemes d’un serveur MineCraft
4.9 (98%) 32 votes