Charles de Lacombe

Écologie émancipatrice. Aussi ingénieur.

Je suis récemment tombé sur une chronique d’Anne-Cécile Mailfert pour France Inter, qui s’interroge sur la disparition où la dissimulation de certains mots dans nos espaces numériques. Enfin, pas vraiment « nos espaces » : cette censure qui ne dit pas son nom est propre aux réseaux sociaux détenus par une poignée de multinationales.

On ne peut plus rien dire

Sur les plateformes de Meta (Facebook, Instagram), Microsoft (LinkedIn), ByteDance (TikTok), Google (YouTube) et Amazon (Twitch), il est courant de recourir à certains stratagèmes visant à contourner une règle plus ou moins explicite : il y a des mots interdits, et des images itou. Ainsi fleurissent les astérisques, périphrases, bips sonores et autres bandeaux noirs.

On parlera donc de vi*l, puisqu’on n’a pas le droit d’écrire « viol » en toutes lettres, même quand le sujet est au cœur du débat public. On vulgarisera l’histoire de l’art en cachant des morceaux d’œuvres, sans quoi on risquera la démonétisation, le shadowban ou le verrouillage de son compte. On apprendra qu’il y a les bons et les mauvais tétons, les masculins qui ne posent aucun problème et les féminins qui sont pornographiques.

NB : je n’évoquerai pas ici le cas de X/Twitter, d’une part parce que ça change tout le temps, d’autre part parce qu’on ne doit plus accorder aucun crédit à ce réseau.

Cancel culture

Les entreprises qui contrôlent ces espaces en édictent les règles : elles choisissent ce qui est mis en avant ou au contraire caché même aux personnes qui s’étaient pourtant abonnées à un compte précisément pour en suivre la production. Elles font les règles de ces lieux virtuels qui ont une place toujours grandissante dans nos vies, et ainsi détiennent un véritable pouvoir normatif sur la réalité, sans avoir une once de légitimité démocratique.

Qu’importe que le viol ou les néonazis soient bien réels et qu’il faille en parler : ce sont des mots qui ne doivent pas exister. Idem pour le suicide, qui est pourtant la deuxième cause de mortalité chez les 15-29 ans au niveau mondial : pour en parler, en anglais, c’est à présent le terme unalive (« dévivre ») qui est utilisé. Cette métamorphose du langage pour se conformer aux règles de modération et aux mécanismes de recommandation du contenu a un nom : algospeak.

IA et « nonpensée »

On convoque souvent 1984 à tort, mais la référence à la novlangue d’Orwell n’est ici pas abusive. En décidant ce qu’on a le droit de lire, de voir et d’entendre, ce dont on a le droit de parler, Big Tech tend in fine à décider ce qu’on peut penser. Et avec les outils à base d’IA générative, on touche le fond ! Une personne qui prend l’habitude de déléguer la tâche de rédaction à un LLM pour s’épargner l’effort de la réflexion renonce en réalité à celle-ci.

Code is law, le code c’est la loi, encore plus qu’ailleurs : cette fois, au lieu d’un ordinateur qui cache ou supprime le contenu « inapproprié », c’est la machine qui le génère en se conformant aux choix de ceux qui paient les microprocesseurs et la facture d’électricité. Ça vaut le coup de cramer des tonnes de charbon et de contribuer à l’escalade d’un conflit qui a déjà causé des millions de morts, non ?

Le problème étant que l’industrie est en train de bourrer du LLM partout où c’est possible, et que simplement désactiver les fonctionnalités indésirables commence à devenir compliqué.

Conclusion

Je me disperse et si ça continue je vais embrayer sur Mark Zuckerberg et son allégeance à Donald Trump, alors que ce billet doit rester concentré sur une idée : le pouvoir que l’on accorde à quelques entreprises. Je reprends donc la chronique avec laquelle il démarrait :

 Les plateformes nettoient le langage, mais pas le réel. Elles effacent les mots crus, mais pas les violences qu’ils dénoncent.

Au moment où l’Histoire semble se répéter, il faut réagir. Quand les fascistes sortent du bois il faut les nommer, pour pouvoir les combattre. Et pour ça, pas de miracle : il est nécessaire de reprendre le contrôle de nos espaces d’expression, à commencer par les numériques. Quitter les réseaux sociaux capitalistes, ou au moins ne plus dépendre exclusivement d’eux ; et ne pas s’entraver de chaînes supplémentaires en croyant s’aider de machines à penser.

Quelques réflexions sur un outil dont l’adoption ne devrait pas être une évidence.

Intelligence artificielle, ChatGPT, LLM

Pour aborder correctement le sujet, il faut d’abord définir plus précisément de quoi on parle. L’« intelligence artificielle » (IA) est un sujet de recherche en informatique depuis plusieurs décennies, qui recouvre des techniques très variées. Ce qui nous intéresse aujourd’hui est un sous-domaine précis : les IA génératives, qui permettent de générer du contenu.

Les IA génératives comme ChatGPT s’appuient sur ce qu’on appelle des LLM (Large Language Models, « grands modèles linguistiques »). En très simplifié : on construit un programme auquel on donne à « manger » beaucoup, beaucoup de texte, pour qu’il puisse en retour en écrire. C’est notamment de là que découlent plusieurs des problèmes qui vont suivre. Même raisonnement pour les outils qui génèrent des images, de la musique, des vidéos.

Travail du clic

Le texte mangé par l’IA, d’où vient-il ? D’un peu partout, c’est un très gros corpus qui peut inclure des bouquins, Wikipédia, et plus généralement tout plein de contenu pompé de l’internet mondial. Cet ensemble de textes est d’une qualité assez hétérogène, et même de contenu violent, haineux, etc : il faut donc classer et trier. Rebelote en sortie : il faut expliquer à l’IA si les textes et les images qu’elle produit sont corrects et, disons, « acceptables ». Pour ce boulot titanesque et potentiellement traumatisant (passer ses journées à lire ou regarder des piles de contenu raciste ou pédopornographique pour le bloquer), les entreprises comme OpenAI (ChatGPT) sont allées chercher de la main-d’œuvre à bas prix où elles pouvaient, comme par exemple au Kenya.

De même que « le cloud c’est l’ordinateur de quelqu’un d’autre », l’IA c’est du boulot qui a été fait par d’autres personnes. Exploitées.

Quand on parle d’automatisation, de quoi parle-t-on vraiment ? Souvent, cela veut dire remplacer des personnes visibles par d’autres invisibles, qu’on sépare du reste du monde par un écran. – Antonio Casili, dans Libération

Numérique partout, sobriété nulle part

Pour digérer du texte il ne faut pas seulement des gens : il faut surtout beaucoup d’électronique. Un énorme paquet d’électronique même, pour entraîner les modèles et ensuite les faire fonctionner. Quand il y a une ruée vers l’or, les premiers gagnants sont les marchands de pelles ; ici, les pelles sont des circuits intégrés. C’est ainsi que les revenus de Nvidia, un des principaux fabricants des puces et cartes graphiques utilisées dans l’industrie de l’IA, ont explosé : le 1er mars 2024, c’était la 3e entreprise de l’histoire des États-Unis à dépasser deux trillions (deux mille milliards) de dollars en capitalisation boursière, après Microsoft et Apple – dont la moitié en moins de 6 mois. Explosion de fric, mais surtout explosion de ressources et d’énergie ! Il est bon de rappeler que l’impact du numérique, qui fait couler tant d’encre, a lieu principalement au moment de la fabrication du matériel. En d’autres termes, supprimer ses vieux mails tout en parlant à ChatGPT, c’est un peu comme écoper une baignoire à la petite cuillère en laissant le robinet grand ouvert (ou installer des ampoules basses conso dans son jet privé).

En parlant d’eau, justement, là aussi il y a un petit souci : les ordinateurs, ça chauffe. Les centres de données ont besoin de systèmes de refroidissement plutôt massifs, et le moins qu’on puisse dire c’est qu’ils pompent. Sauf que l’eau a quelques autres usages, qu’on peut juger plus prioritaires que résumer automatiquement des mails, pour notre survie (notamment : boire, et cultiver ce que l’on mange).

La gabegie de ressources ne fait en outre que commencer, étant donné que plus ces technologies seront utilisées et améliorées, pire sera l’effet rebond.

Un choix de société

Enfin, il y a les conséquences des usages eux-même. La facilité de génération des contenus entraîne leur multiplication, pour le meilleur (?) et pour le pire : amplification des biais, désinformation, spam, cybermalveillance. Fiabilité aléatoire des outils, baisse globale de la qualité du contenu indexé par les moteurs de recherche et même des publication scientifiques, que du bonheur. Quelques entreprises qui concentrent toutes les données, qui détiennent un immense pouvoir normatif (ce sont elles qui décident de ce que peut générer ou par leur outil), et qui peuvent à tout moment changer leurs tarifs. Un tableau brossé rapidement qui mérite approfondissement, par exemple avec les textes d’Olivier Ertzscheid.

Une conclusion en forme de citation :

L’IA n’est ni intelligente ni artificielle. Elle n’est qu’une industrie du calcul intensive et extractive qui sert les intérêts dominants. – Kate Crawford, dans Contre-atlas de l’intelligence artificielle