L'introduction à la data science (1)

mercredi, 31.07.2019

Xavier Bays*

Xavier Bays

Intelligence artificielle, big data, deep learning, apprentissage automatique, analyse de données… Chaque nouvelle vague technologique nous noie davantage dans un jargon spécifique qui peut paraître hermétique. Comment ne pas se perdre dans tous ces concepts? Voici quelques pistes pour trouver son chemin dans un monde toujours plus digital.

Heureusement, il existe un terme générique qui regroupe tous ces éléments: la data science ou science des données pour les francophiles. La data science est une branche complète et complexe qui regroupe un grand nombre de métiers/fonctions autour de la donnée, allant de la collecte à l’analyse en passant par le transfert, les questions de sécurité et de stockage, les problématiques légales, le développement d’algorithmes… Vous l’aurez compris, rien n’est plus différent que deux data scientists et bon nombre d’entreprises s’égarent encore à chercher une licorne capable de maîtriser toutes ces tâches.

L’apprentissage automatique, machine learning pour les intimes, est le cerveau de l’intelligence artificielle. Le principe est de laisser un ordinateur retenir tout seul des schémas historiques pour les répéter au moment présent. Il y a toujours deux phases: l’apprentissage et la prédiction. Evidemment, si les données historiques sont biaisées, la machine apprendra des absurdités et les prédira. Amazon avait par exemple développé une IA de sélection de candidatures à l’embauche qui discriminait les femmes à cause d’un déséquilibre historique des genres dans l’entreprise. Cette anecdote illustre sans doute tout le côté artificiel de cette intelligence. 

Pour atteindre leurs fins analytiques, les data scientists disposent de nombreux algorithmes de machine learning, dont une famille très à la mode actuellement: le deep learning. Celle-ci tire son nom des célèbres réseaux de neurones qui fonctionnent sur un système de transfert d’informations en plusieurs étapes, plusieurs couches, dont certaines dites profondes (deep). Basés sur une technologie de 1957 de l’Américain Rosenblatt, les réseaux de neurones nous entourent toujours plus et se retrouvent par exemple dans les outils de traductions automatiques, les filtres de Snapchat ou encore les voitures autonomes, actuellement en phase de test sur les autoroutes françaises. 

Il arrive parfois que les data scientists doivent gérer des contraintes particulières comme des quantités de données gigantesques, des formats de données très différents (images, sons, chiffres, …) ou encore des délais de calcul serrés (prédire la consommation électrique pour le lendemain). On parle alors de big data. Toutefois, la data science s’applique également dans des cas plus modestes: ne foncez pas dans le big data à tout prix! Cette erreur sera d’ailleurs le sujet d’une chronique ultérieure. 

La data science n’a pas fini de faire parler d’elle et trouve tous les jours de nouvelles applications. Dans cette chronique, nous partagerons régulièrement avec vous des conseils et des exemples concrets d’application de la data science afin de vous dévoiler certains de ses secrets.

* Data Scientist et cofondateur, Swiss Statistical Design and Innovation





 
 
 

AGEFI

Rafraîchir cache: Ctrl+F5 ou Wiki




...