Locuteurs et locutrices de langues minorées : ne donnez pas vos voix !

Fin mars 2026, plusieurs médias ont relayé des projets de recherche visant à collecter des langues régionales et/ou minorées pour entraîner des intelligences artificielles sous prétexte de « sauver » lesdites langues. Nous répondons ici aux articles publiés par France 3 Bretagne[1] et Les Échos[2] et à l’émission diffusée par France Culture[3].

Locuteurs et locutrices de langues minorées : ne donnez pas vos voix !

On le sait, la disparition progressive de la diversité des langues en France (comme dans le monde) ne procède nullement d’un phénomène naturel inéluctable, mais d’une volonté politique qui a méthodiquement éradiqué la pratique de langues comme le breton, l’occitan, le picard ou l’alsacien. Par ailleurs, parler de langues minorées et non mineures, rares, ou « peu dotées », comme on le lit sous la plume des linguistes au grand cœur qui embrassent les nouvelles technologies pour venir au secours de ces langues, qu’il s’agisse de langues de France ou d’ailleurs, permet d’insister sur le fait que cette minorisation n’est pas une essence mais bel et bien un état subi, au profit de langues dominantes, comme le sont le français ou l’anglais. Notons aussi que ces langues ne sont pas non plus dominantes par essence mais qu’elles se sont imposées dans le monde par la colonisation et au détriment des langues des colonisé·es. Ces quelques bases étant posées, nous souhaitons ici contester la démarche mise en avant dans plusieurs articles qui appelle les locuteurs et locutrices de langues régionales et/ou minorées à donner leurs voix pour la science, et relever l’hypocrisie et le cynisme de ce projet.

Si nous partageons le constat selon lequel les technologies d’intelligence artificielle générative et de traduction automatique creusent l’écart entre langues dominantes et langues minorées, nous récusons la solution naïve qui prétend combler cette lacune par une collecte effrénée de données. Ces technologies sont créées par et pour des locuteur·ices des langues les plus dominantes dans le monde et entraînées avec les données des cultures majoritaires, les plus diffusées, ce qui vaut pour les langues mais aussi pour les idées et idéologies véhiculées. Elles détériorent donc, comme c’est déjà le cas pour les langues dominantes, non seulement la langue et la pensée, mais aussi les conditions de travail pour toutes les personnes travaillant dans le domaine de la langue et du texte (traductrices, interprètes, doubleurs, journalistes, rédactrices, correcteurs, chercheurs, etc.), le produit de leur travail, entraînent une perte de confiance dans l’information, une dépossession de leurs compétences et savoir-faire, voire la perte pure et simple de leur emploi. Or, plutôt que de remettre en question la technologie même, les linguistes et les ingénieurs proposent de faire subir le même sort au basque ou à l’occitan, dans cet « élan colonisateur » propre à l’IA dont parle Kate Crawford dans son Contre-atlas de l’intelligence artificielle[4].

Rappelons que l’intelligence artificielle a un fonctionnement probabiliste. Elle se fait l’écho de la voix du plus grand nombre, d’une voix moyenne, qui ne s’écarte pas de la norme. Ce qui exclut de fait non seulement les langues minorées mais leurs usages minoritaires, qui sont des manières de parler ou d’écrire de telle ou telle localité, famille, personne, époque. Les bizarreries de votre grand-mère, les coquetteries de votre grand-oncle, les particularités qui font qu’une langue est vivante parce qu’elle est poreuse aux autres langues, qu’elle se déforme, qu’elle permet à chacun·e d’avoir sa langue dans la langue, tout cela n’existe pas quand elle est reproduite artificiellement par une machine. Comment, dans ce cas, une technologie qui est fondée sur la probabilité, la statistique, le calcul de ce qu’il y a de plus courant peut-elle être au service des langues minorées qui sont par essence les moins courantes, les moins probables, qui s’écartent des usages justement dominants ?

Nous soutenons au contraire que pour agir en faveur d’une langue, il faut qu’elle soit enseignée, pratiquée, utilisée pour la création littéraire ou artistique. Or, l’enfermer dans des logiciels d’intelligence artificielle c’est la condamner à n’avoir plus besoin de vecteurs humains pour la faire vivre. À intégrer des fragments de langues dans des machines, on risque surtout d’en faire des langues mortes dont on pourra restituer des ersatz qui n’ont plus rien à voir avec l’usage en cours ou l’usage qui a eu lieu à un moment. C’est le latin de la messe. Automatiser une langue, c’est déposséder à la longue ses locuteur·ices de leur pratique, de leur savoir. Ça revient à dire, pour parler breton je n’ai qu’à cliquer : à quoi bon l’apprendre ? Et c’est d’autant plus cynique que c’est aux locuteur·ices actuel·les que l’on demande de l’aide pour aller saboter leur propre langue ! Tout comme beaucoup de travailleur·euses dans de nombreux domaines se voient incité·es ou contraint·es d’introduire l’IA dans leurs pratiques professionnelles, assurant ainsi la dégradation de leurs conditions de travail et la perte de leurs savoir-faire. Tout ça contre la promesse d’avoir aujourd’hui un GPS en corse ou en alsacien, quand on condamne en même temps ces langues à disparaître. À la logique court-termiste qui propose comme autant de gadgets des « outils » pour tout résoudre tout de suite, nous opposons une pensée globale des langues et des cultures, qui sont des objets à la fois plus précieux et plus complexes que de simples données.

Les articles dont il est question mettent aussi en avant des problèmes d’éthique et de transparence. Les chercheurs responsables de ce projet, sous l’égide de l’INRIA (Institut national de recherche en sciences et technologies du numérique), prétendent avoir une visée purement scientifique. Sur France 3 Bretagne, on peut lire : « L’INRIA est un institut public : pas de vente, les données collectées seront placées dans le domaine public. » Or, d’après les mots de Sam Bigeard lui-même, le linguiste à la tête de cette opération, ces « outils » seront certes à disposition des chercheurs mais aussi « des start-up [et] des grands acteurs de la Tech ». D’autre part, si l’INRIA est en effet un institut public, elle a été largement critiquée ces dernières années pour délaisser son rôle dans la recherche au profit de la valorisation de« partenariats industriels, création de start-up et projets menés pour le compte du gouvernement »[5]. Ce sont les chercheurs eux-mêmes qui y travaillent qui émettent ces critiques, comme on le lit dans de nombreuses enquêtes, allant de Mediapart au Figaro : « Il y a un déplacement de la recherche fondamentale vers “un numérique au service de…”, “une informatique au service de…”. Ce n’est plus un travail de recherche, mais d’ingénierie, et je dis ça sans mépris », témoigne un chercheur de l’INRIA[6]. Et cette orientation d’incubateur de start-up est clairement assumée par son PDG Bruno Sportisse qui déclare tranquillement au Figaro :« L’Inria accompagne les chercheurs dans la création d’entreprise. Nous les aidons aussi à rester dans des logiques industrielles, pour ne pas qu’ils se transforment en prestataires de services »[7].

Rappelons par ailleurs que nos voix sont des données biométriques. Comment s’assurer de l’usage qui en sera fait à partir du moment où elles constituent une « ressource librement réutilisable », d’après les termes mêmes employés par l’INRIA ? À partir du moment où nous consentons à mettre ces données à la disposition d’un institut dont la recherche ne semble plus être la priorité, quelles garanties avons-nous des fins auxquelles elles seront utilisées ?

Avec ce projet, l’INRIA prétend « Outiller les langues de France pour le XXIe siècle ». C’est autant un contresens qu’un affront. Les langues n’ont pas besoin d’être outillées par les machines, elles se suffisent très bien à elles-mêmes. Ce sont les machines qui sont outillées par les langues et non l’inverse. Alors que les budgets dédiés à la culture, à l’enseignement et donc à la diffusion et à la promotion de la diversité linguistique baissent, que les enseignants à tous les niveaux travaillent dans des conditions de plus en plus précaires et voient le nombre de postes diminuer, que les traducteur·ices, premier·es garant·es de l’accès à la diversité culturelle et linguistique, se voient imposer des conditions de travail de plus en plus difficiles à cause de l’introduction forcée de l’intelligence artificielle, il nous semble dérisoire, purement cosmétique voire insultant de prétendre œuvrer de cette manière en faveur des langues minorées. Au mieux c’est de l’humanitaire naïf, au pire c’est du colonialisme déguisé.

Ne donnez pas vos voix, gardez-les pour faire vivre vos langues !

Le collectif En chair et en os, pour une traduction humaine (www.enchairetenos.org)

Retrouvez cet article sur notre blog Mediapart : https://blogs.mediapart.fr/en-chair-et-en-os/blog/070426/locuteurs-et-locutrices-de-langues-minorees-ne-donnez-pas-vos-voix

[1] France 3 Bretagne, le 24/03/2026 https://france3-regions.franceinfo.fr/bretagne/finistere/brest/vous-parlez-breton-basque-creole-la-science-a-besoin-de-votre-voix-pour-une-reconnaissance-vocale-dans-toutes-les-langues-de-france-3322275.html

[2] Les Échos, le 24/03/2026 https://www.radiofrance.fr/franceculture/podcasts/les-chantiers-de-la-recherche/comment-integrer-les-langues-regionales-a-nos-outils-numeriques-5700812

[3] France Culture, le 19/03/2026 https://www.radiofrance.fr/franceculture/podcasts/les-chantiers-de-la-recherche/comment-integrer-les-langues-regionales-a-nos-outils-numeriques-5700812

[4] Kate Crawford, Contre-atlas de l’intelligence artificielle, trad. Laurent Bury, Zulma, 2022, p. 23.

[5] Médiapart, « Numérique : les chercheurs du principal institut public se dressent contre leur patron ‘‘startupeur’’ », article du 26/03/2022 https://www.mediapart.fr/journal/france/260322/numerique-les-chercheurs-du-principal-institut-public-se-dressent-contre-leur-patron-startupeur?utm_source=article_offert&utm_medium=email&utm_campaign=TRANSAC&utm_content=&utm_term=&xtor=EPR-1013-%5Barticle-offert%5D&M_BT=20337206572713

[6] Idem.

[7] Le Figaro, « L’Inria au cœur de la stratégie digitale de l’État », article du 18/11/2021 https://www.lefigaro.fr/secteur/high-tech/l-inria-au-coeur-de-la-strategie-digitale-de-l-etat-20211118