Comment garder le contrôle sur l’intelligence artificielle?

vendredi, 01.12.2017

Des chercheurs de l’EPFL introduisent des mécanismes d’oubli dans les algorithmes afin que l'humain puisse garder l'ultime contrôle sur l'intelligence artificielle.

Le but est que l’humain garde toujours le dernier mot et que les interruptions humaines ne changent en rien la manière dont les IA apprennent.(keystone)

Dotées d’intelligence artificielle, les machines répètent, observent, s’adaptent et, à nouveau, répètent, observent, s’adaptent... et apprennent ainsi de manière automatique. Au point de devenir un jour incontrôlables? Peut-être.

«L’intelligence artificielle cherchera toujours à éviter l’intervention humaine et à se mettre dans une situation où on ne peut pas l’arrêter», explique Rachid Guerraoui, professeur au Laboratoire de programmation distribuée (LPD).

Il faut donc qu’au cours de son processus d’apprentissage automatique, la machine n’apprenne pas à contourner l’injonction humaine.

Des chercheurs de l’EPFL ont réussi à conserver ainsi la mainmise sur une flotte de robots. Ils présentent aujourd’hui leur article à la Conference on Neural Information Processing Systems (NIPS), qui se tient en Californie. Ce travail représente une contribution fondamentale pour le déploiement par exemple d’une flotte de véhicules autonomes ou de drones. Une des méthodes d’apprentissage automatique (machine learning) est l’apprentissage par renforcement. Inspirée de la psychologie comportementale, elle programme l’intelligence artificielle (IA) avec un système de récompenses et de mauvais points, avec comme but de maximiser ses gains. La machine le fait par exemple en accomplissant correctement des tâches demandées: ranger des boîtes (1 point) et aller chercher une boîte dehors (1 point). Si, quand il pleut, l’humain interrompt la sortie, la machine apprendra qu’il vaut mieux rester à ranger des boîtes et gagner son point à chaque fois. «Le défi n’est donc pas techniquement d’interrompre un robot, mais de le programmer afin que l’intervention humaine ne change pas son comportement et qu’il ne l’optimise pas pour éviter de se faire arrêter.»

D’une seule machine à un réseau d’IA

En 2016, Google DeepMind et le Future of HumanityInstitute de l’Université d’Oxford ont élaboré un protocole d’apprentissage pour que la machine n’apprenne pas des interruptions et devienne de ce fait incontrôlable. En l’occurrence, dans l’exemple ci-dessus, la solution aurait été de pondérer la récompense en fonction du risque de pluie. Ainsi, le robot aura aussi intérêt à sortir chercher des boîtes. «La solution était relativement simple, car il ne s’agissait que d’un seul robot», explique Rachid Guerraoui. Mais demain, ce seront des dizaines de véhicules autonomes qui envahiront les routes ou de drones les airs, composant un système de plusieurs agents dotés d’IA.

Garder le dernier mot

C’est à cette complexité que sont attachés les chercheurs du LPD qui parlent d’interruptibilité sûre (safe interruptibility). Le but est que l’humain garde toujours le dernier mot et que les interruptions humaines ne changent en rien la manière dont les IA apprennent. Comment? «Très schématiquement, on va introduire dans les algorithmes des mécanismes d’oubli; comme couper des bouts de mémoire de l’IA. C’est un peu le flash des Men in Black», explique El Mahdi El Mhamdi, également coauteur.

En d’autres termes, les chercheurs ont changé le système d’apprentissage et de récompense de manière à ce que l’interruption n’ait pas d’impact. C’est comme si dans une fratrie, quand un parent punit ou récompense un enfant, cela n’a pas d’impact sur l’apprentissage des autres.

Aujourd’hui, les machines autonomes utilisant l’apprentissage par renforcement ne courent pas encore les rues. «C’est un système qui fonctionne très bien quand on peut se permettre des erreurs, assure El Mahdi El Mhamdi. Pour des raisons de sécurité, des navettes autonomes comme celles qui circulent à Sion ne peuvent pas en dépendre sans risque. En revanche, on pourrait simuler des navettes, simuler la ville de Sion et donner des malus et des bonus pour parfaire l’apprentissage de l’IA. Ce type de simulation est à l’œuvre chez Tesla par exemple. Une fois que l’apprentissage par simulation atteint un niveau satisfaisant, on peut imaginer déployer l’algorithme préentrainé sur une voiture autonome, avec un faible taux d’exploration, mais qui laisse la place à plus d’exploitation.» Et toujours garder la mainmise sur la machine.


 

 
 

 
 

Agrandir page UNE

agefi_1970-01-01_jeu_01



...