Nous entendons parler d’intelligence artificielle (IA) tous les jours mais sommes-nous tous réellement capable de les définir ? Où vont nos données et quelles limites devons-nous leur mettre ?
Pour répondre à ces interrogations, j’ai eu la chance de discuter avec Thibault. Après des études d’art, Thibault est parti à l’EPFL faire un cursus en data science qui l’a mené à travailler maintenant en tant que Senior machine learning engineerdans une entreprise de conseil en intelligence artificielle.
- Peux-tu nous préciser ce qu’est un « Machine learning engineer » ?
Machine Learning engineer est le métier permettant de développer et déployer des applications d’intelligence artificielle. C’est l’idée d’écrire le code, de récolter des données, de mettre en place toute l’infrastructure nécessaire pour qu’une entreprise puisse utiliser, dans ses processus internes, les divers outils technologiques.
- Pour commencer, comment peut-on définir une intelligence artificielle ?
Il y a beaucoup de définitions concernant les intelligences artificielles.
Je pense que la première définition, la plus communément acceptée, consiste à dire que l’intelligence artificielle est généralement un système informatique qui va agir d’une façon nous paraissant intelligente.
C’est une définition qui évolue parce que ce que l’on considérait comme de l’intelligence artificielle il y a cinq ans ne l’est plus aujourd’hui. Les outils que l’on a maintenant sont beaucoup plus avancés.
Dans le contexte actuel, on associe souvent l’IA avec le Machine Learning qui est un domaine de l’IA dans lequel on va apprendre aux « ordinateurs », à reproduire ce que nous les humains ont fait, ou à reconnaître des schémas et à pouvoir en déduire de nouvelles choses.
La technologie la plus connue en ce moment est ChatGPT. Tout ce que fait cet outil, c’est prédire en fonction d’un texte, ce qui viendra après. Pour cela, on lui en a montré des milliards en lui demandant ce qu’il pouvait suivre. Petit à petit, on arrive à créer un modèle statistique qui donne cette apparence d’intelligence car le texte produit ressemblera à ce que pourrait écrire un humain, étant donné qu’il se base sur les textes vus et déjà rédigés.
- Quel est le processus de développement d’une intelligence artificielle ?
Il y a plusieurs grandes étapes dans le développement d’une intelligence artificielle.
La première étape consiste à définir ce que l’on doit faire, l’objectif. Par exemple, reconnaître un visage sur une photo.
Une fois qu’on a l’objectif, on va le quantifier mathématiquement. C’est-à-dire trouver comment à partir d’une photo, on peut la différencier d’une autre. On a besoin de trouver ces données sous forme de chiffres car on travaille la plupart du temps, avec des nombres et des statistiques. Par exemple, si on attribue des nombres à toutes les couleurs, on peut soustraire deux couleurs ensemble et le nombre obtenu (plus ou moins grand) nous indiquera la différence entre les deux.
Un des problèmes majeurs est de trouver des données. Les techniques que l’on a demandent énormément de données. Quand je dis énormément, on parle de millions voire de milliards d’échantillons de chaque chose. Par exemple, si on fait un algorithme qui reconnaît des pommes, il nous faut des millions de photos de pommes sous tous les angles possibles et imaginables pour pouvoir aider notre ordinateur à apprendre.
Dès que l’on a les données, on doit les nettoyer. Dans la mesure où l’on ne peut pas les regarder une par une, on devra trouver une façon de dire à notre programme que dans notre jeu de données de pommes, il y a peut-être des oranges et il va falloir trouver comment les éliminer.
Ensuite, il faut élaborer ce qu’on appelle l’algorithme, qui est un « ensemble de règle ». Il s’agit des étapes précises qui vont être appliquées à chaque échantillon de données pour créer notre IA.
Une fois qu’on a défini notre algorithme, qui peut être un modèle statistique simple comme une régression linéaire, ou complexe comme un réseau de neurones, on lui donne toutes les photos et on lui demande ce qu’il pense voir. Au début, l’algorithme va faire énormément d’erreurs, il dira peut-être que la pomme est une banane. À ce moment, on lui dira que c’est faux, qu’il s’agit d’une pomme parce qu’on a par avance mis des labels à nos images. L’algorithme va alors modifier ses valeurs en conséquence. On pourra ensuite recommencer avec une nouvelle photo et ainsi de suite.
Le processus d’apprentissage consiste à automatiser cela en donnant beaucoup de données à l’algorithme pour que petit à petit, il soit capable quand on lui montrera une nouvelle photo qu’il n’a jamais vu, de deviner ce que c’est. L’ordinateur a associé des formes et des images mais on ne lui a jamais dit explicitement. C’est là, la principale différence entre le Machine Learning et les techniques d’intelligence artificielle précédentes où l’on donnait des règles, en leur expliquant par exemple, que si c’est arrondi et rouge, c’est une pomme. Le problème c’est que beaucoup de choses pourraient être arrondies et rouges. C’est donc plus difficile de faire un système qui réagit correctement à des choses qu’on n’a pas prévues.
Après avoir développé l’algorithme, on obtient « un modèle », que l’on intégrera à une application donc dans le reste d’un système informatique. Prenons l’exemple de Facebook ou Instagram, où des modèles sont utilisés pour recommander des pubs. Les modèles statistiques ont appris à prédire la probabilité qu’une personne regarde une pub en fonction de ce qu’on sait d’elle (genre, intérêts, autres pages likées, etc.). Ces modèles sont donc intégrés à des informations vastes.
- Maintenant que l’on sait comment une IA est développée, quel est leur but ?
En règle générale, dans la plupart des applications actuelles, le but est de prédire des choses. On peut y voir un aspect commercial, comme illustré avant, prédire sur quelle pub les gens vont cliquer. Mais quand on parle de prédiction, on peut aussi aborder le sujet de la météo. C’est un exemple parfait d’un domaine dans lequel on a envie de prédire. Quel temps fera-t-il demain à partir des données que l’on a en ce moment.
Donc pour résumer, l’IA est une grande machine à prédire. Quand on pose une question à ChatGPT, tout ce qu’il fait c’est prédire ce que répondrait un humain standard à cette question en espérant que cette réponse sera juste, mais sans garantie.
Pour répondre à la question plus généralement, comme toutes les inventions que les humains ont créées, les IA servent à nous simplifier la vie. C’est des outils qui permettent de faire des tâches qui soit nous prennent trop de temps à faire soit qu’on n’aurait pas envie de faire.
- Est-ce que les IA sont confrontées à des limites ?
Étant donné que les comportements ressemblent beaucoup à des comportements humains, en regardant de loin, on peut avoir la fausse sensation d’interagir avec quelqu’un d’intelligent. Cependant, avec les intelligences que l’on a actuellement, nous sommes loin d’avoir une conversation avec un humain normal. Les machines vont prédire ce qui leur paraît logique d’après ce qu’elles ont vu. Ce qui, par conséquent, signifie que si elles se retrouvent face à une situation nouvelle, elles ne nous diront pas qu’elles ne connaissent pas, elles essayeront simplement de prédire quelque chose. Cela veut aussi dire qu’elles ont tendance à reproduire les comportements humains négatifs, leurs biais, si on ne fait pas attention.
- Pour créer les algorithmes, on a besoin de données mais où vont-elles ?
Il est difficile de répondre comme ça. Il y a pas mal d’applications qui se vante d’utiliser l’IA, tout ce qu’on tape dans ces applications et les photos qu’on envoie sont envoyées sur des serveurs pour être analysées. Le problème c’est qu’à ce moment, on a plus aucun contrôle. C’est pour ça qu’il faut faire attention à ce qu’on publie sur internet.
Certaines grosses entreprises comme Microsoft ont des termes de services très précis ce qui, théoriquement, les lientlégalement et les empêchent d’utiliser les données pour faire autres choses que le terme initialement prévu. Le côté légal les empêche de faire n’importe quoi mais l’autre problème, c’est qu’à partir du moment où les données sont sur leurs serveurs, elles peuvent être la cible de piratage.
Donc la réponse simple à la question est : sur les serveurs des entreprises, avec le risque que ces données ne nous appartiennent plus. Cependant, c’est un problème que nous retrouvons souvent avec les réseaux sociaux, lorsque certainspublient des contenus pouvant les mettre en danger.
Comme les données vont sur des serveurs, des entreprises essayent d’avoir des modèles qui tournent directement sur les téléphones ou les ordinateurs. Ce qui signifie que les données restent localement sur la machine. C’est une façon qui est développée en ce moment pour améliorer la confidentialité des données. Le problème c’est que l’IA avec le Machine Learning demande beaucoup de puissance de calculs ce qui souvent n’est pas envisageable sur un téléphone.
C’est d’ailleurs un coût caché de l’IA, il y a des serveurs partout dans le monde qui utilisent énormément d’énergie pour les faire fonctionner.
- Faut-il imposer des limites ?
Il faut considérer que l’IA est très liée à la protection des données. La législation sur les données et sur les IA sont deux choses qui vont de pair.
La protection des données c’est quelque chose sur quoi on a déjà travaillé donc je ne vais pas m’attarder là-dessus. En ce qui concerne les l’IA, ce n’est pas tant sur les capacités qu’il faut légiférer mais sur les effets qui pourraient impacter la société. On voit déjà beaucoup de cas où des individus se font licencier, étant remplacés par des IA. Bien que l’on puisse considérer ce phénomène comme le cycle du travail habituel, la question est de savoir ce que nous, en tant que société, nous voulons faire et de quoi avons-nous envie. Ce sont des outils fantastiques qui nous permettent de faire plein de choses que l’on n’était pas capable de faire. Mais comment peut-on faire en sorte pour qu’elles bénéficient à la société et pas uniquement à trois entreprises basées en Californie.
C’est un sujet de politique dans lequel le droit à sa place à jouer parce que c’est lui qui protège les personnes. On peut aller plus loin et ne pas se focaliser uniquement sur le droit du travail. Il y a un plusieurs autres risques, typiquement, lesDeepFake dont on entend beaucoup parler. Certaines personnes prennent des photos d’autres et en font du contenu pornographique. Ce phénomène est déjà protégé par le droit à l’image mais comment pouvons-nous agir véritablement là-dessus, c’est une question complexe. D’autant plus que le problème inhérent à internet c’est que l’on est connecté mondialement. Souvent, il y a des choses qui se font dans d’autres pays, dans lesquels on n’a pas un pouvoir direct alors comment est-ce que nous, on pourrait se protéger par rapport à ça.
Pour faire un lien avec le domaine de l’avocature, il n’y a pas longtemps, au Brésil, un juge a rendu sa décision en citant de la jurisprudence s’avérant être fausse. Les exemples utilisés n’existaient pas car ils avaient été générés par ChatGPT. La personne pensait que c’était un système qui donnait des informations véridiques alors qu’en réalité ChatGPT génère simplement des informations qui s’y apparentent.
Je n’utilise pas cet exemple pour dire qu’il faut bannir l’IA du travail d’avocat. Ça reste un outil fantastique, qu’il faut apprendre à utiliser. Il y a également des applications aidant la recherche et permettant de formuler une question très générale. Ceci facilite énormément le travail d’aller chercher dans des grosses bases données pour ressortir des liens vers ce qu’on cherche. Donc il y a aussi une question d’adéquation de l’outil lorsque l’on veut faire quelque chose. Il faut savoir l’utiliser ainsi que le comprendre pour savoir ce qu’il fait concrètement, mais pour cela il faudrait passer par une éducation et une sensibilisation aux IA.
Interview réalisée par Gwenaëlle Viglino
Source image : https://pixabay.com/fr/illustrations/intelligence-artificielle-cerveau-3382507/