IA quoi ? Pas intelligence, surtout pas artificielle.

Quelques réflexions sur un outil dont l’adoption ne devrait pas être une évidence.

Intelligence artificielle, ChatGPT, LLM

Pour aborder correctement le sujet, il faut d’abord définir plus précisément de quoi on parle. L’« intelligence artificielle » (IA) est un sujet de recherche en informatique depuis plusieurs décennies, qui recouvre des techniques très variées. Ce qui nous intéresse aujourd’hui est un sous-domaine précis : les IA génératives, qui permettent de générer du contenu.

Les IA génératives comme ChatGPT s’appuient sur ce qu’on appelle des LLM (Large Language Models, « grands modèles linguistiques »). En très simplifié : on construit un programme auquel on donne à « manger » beaucoup, beaucoup de texte, pour qu’il puisse en retour en écrire. C’est notamment de là que découlent plusieurs des problèmes qui vont suivre. Même raisonnement pour les outils qui génèrent des images, de la musique, des vidéos.

Travail du clic

Le texte mangé par l’IA, d’où vient-il ? D’un peu partout, c’est un très gros corpus qui peut inclure des bouquins, Wikipédia, et plus généralement tout plein de contenu pompé de l’internet mondial. Cet ensemble de textes est d’une qualité assez hétérogène, et même de contenu violent, haineux, etc : il faut donc classer et trier. Rebelote en sortie : il faut expliquer à l’IA si les textes et les images qu’elle produit sont corrects et, disons, « acceptables ». Pour ce boulot titanesque et potentiellement traumatisant (passer ses journées à lire ou regarder des piles de contenu raciste ou pédopornographique pour le bloquer), les entreprises comme OpenAI (ChatGPT) sont allées chercher de la main-d’œuvre à bas prix où elles pouvaient, comme par exemple au Kenya.

De même que « le cloud c’est l’ordinateur de quelqu’un d’autre », l’IA c’est du boulot qui a été fait par d’autres personnes. Exploitées.

Quand on parle d’automatisation, de quoi parle-t-on vraiment ? Souvent, cela veut dire remplacer des personnes visibles par d’autres invisibles, qu’on sépare du reste du monde par un écran. – Antonio Casili, dans Libération

Numérique partout, sobriété nulle part

Pour digérer du texte il ne faut pas seulement des gens : il faut surtout beaucoup d’électronique. Un énorme paquet d’électronique même, pour entraîner les modèles et ensuite les faire fonctionner. Quand il y a une ruée vers l’or, les premiers gagnants sont les marchands de pelles ; ici, les pelles sont des circuits intégrés. C’est ainsi que les revenus de Nvidia, un des principaux fabricants des puces et cartes graphiques utilisées dans l’industrie de l’IA, ont explosé : le 1er mars 2024, c’était la 3e entreprise de l’histoire des États-Unis à dépasser deux trillions (deux mille milliards) de dollars en capitalisation boursière, après Microsoft et Apple – dont la moitié en moins de 6 mois. Explosion de fric, mais surtout explosion de ressources et d’énergie ! Il est bon de rappeler que l’impact du numérique, qui fait couler tant d’encre, a lieu principalement au moment de la fabrication du matériel. En d’autres termes, supprimer ses vieux mails tout en parlant à ChatGPT, c’est un peu comme écoper une baignoire à la petite cuillère en laissant le robinet grand ouvert (ou installer des ampoules basses conso dans son jet privé).

En parlant d’eau, justement, là aussi il y a un petit souci : les ordinateurs, ça chauffe. Les centres de données ont besoin de systèmes de refroidissement plutôt massifs, et le moins qu’on puisse dire c’est qu’ils pompent. Sauf que l’eau a quelques autres usages, qu’on peut juger plus prioritaires que résumer automatiquement des mails, pour notre survie (notamment : boire, et cultiver ce que l’on mange).

La gabegie de ressources ne fait en outre que commencer, étant donné que plus ces technologies seront utilisées et améliorées, pire sera l’effet rebond.

Un choix de société

Enfin, il y a les conséquences des usages eux-même. La facilité de génération des contenus entraîne leur multiplication, pour le meilleur (?) et pour le pire : amplification des biais, désinformation, spam, cybermalveillance. Fiabilité aléatoire des outils, baisse globale de la qualité du contenu indexé par les moteurs de recherche et même des publication scientifiques, que du bonheur. Quelques entreprises qui concentrent toutes les données, qui détiennent un immense pouvoir normatif (ce sont elles qui décident de ce que peut générer ou par leur outil), et qui peuvent à tout moment changer leurs tarifs. Un tableau brossé rapidement qui mérite approfondissement, par exemple avec les textes d’Olivier Ertzscheid.

Une conclusion en forme de citation :

L’IA n’est ni intelligente ni artificielle. Elle n’est qu’une industrie du calcul intensive et extractive qui sert les intérêts dominants. – Kate Crawford, dans Contre-atlas de l’intelligence artificielle