Un LLM ne produit pas du langage. Il redistribue, à très grande échelle et à très grande vitesse, des régularités statistiques extraites du langage humain. La question que la recherche commence à poser sérieusement est celle-ci : est-ce que cette redistribution modifie en retour le langage dont elle est issue ?
La question n'est pas spéculative. Elle est désormais empiriquement traçable, au moins dans certains contextes, et les premières mesures disponibles sont instructives. Une étude publiée aux Findings of ACL en 2025 analyse statistiquement les fréquences de mots dans des abstracts arXiv avant et après la diffusion massive de ChatGPT.1 Le résultat le plus saillant : certains termes fortement associés aux sorties de LLM, dont le très documenté "delve", ont enregistré une baisse de fréquence dans les textes humains après avoir été publiquement identifiés comme marqueurs d'IA. Les auteurs, Geng et Trotta, nomment ce phénomène coévolution : les modèles modifient l'écriture humaine, et les humains s'ajustent en retour en évitant les marqueurs devenus trop visibles.
Une étude indépendante, publiée en 2025 via PubMed, prend une mesure plus large : elle analyse plus de quinze millions d'abstracts biomédicaux entre 2010 et 2024 et détecte une rupture de fréquence sur certains mots de style après 2022.2 L'estimation avancée est qu'au moins 13,5 % des abstracts de 2024 auraient été retravaillés par LLM. La méthode repose sur des proxys lexicaux, pas sur une mesure directe des outils utilisés, ce qui en limite la portée interprétative. Mais l'échelle du corpus rend le signal difficile à ignorer.
Ce que ces deux études documentent conjointement, c'est moins une invasion que ce que Geng et Trotta appellent explicitement une coévolution : un ajustement mutuel entre les sorties des modèles et les pratiques d'écriture humaine, dans les deux sens. Les humains adoptent certaines régularités des LLM, puis les évitent quand elles deviennent reconnaissables, puis les modèles se réentraînent sur ce corpus transformé. Ce n'est pas un remplacement. C'est une perturbation continue de l'équilibre entre usage propre et usage médié.
La seconde dimension que la littérature commence à cartographier est l'homogénéisation stylistique. Le mécanisme est logique : un modèle de langage est entraîné sur l'ensemble du texte humain disponible et produit des sorties qui correspondent aux régularités dominantes de cet ensemble. Par construction, il est moins variable que la moyenne des textes humains dont il est issu, parce qu'il lisse les écarts, les singularités et les marges. Quand des millions d'auteurs l'utilisent pour rédiger, réviser ou compléter leurs textes, ils importent cette régularité dans leurs propres productions.
Un article de synthèse publié dans Trends in Cognitive Sciences en 2026, signé par Sourati et al., formalise ce risque sous le terme de "same-ification" culturelle.3 Les auteurs s'appuient sur plusieurs études empiriques montrant que les sorties des LLM sont structurellement moins variées que les textes humains comparables, et soutiennent que l'usage massif de ces outils peut uniformiser non seulement le vocabulaire et la structure des textes, mais aussi les modes de raisonnement qui s'y expriment. C'est un article de synthèse argumentative, pas une étude expérimentale originale, et ses conclusions restent des inférences plutôt que des démonstrations. Mais le cadre qu'il propose est analytiquement utile, précisément parce qu'il lie surface linguistique et cognition : si le langage disponible se rétrécit, les opérations mentales que ce langage rend possibles se rétrécissent avec lui.
La mesure directe de cette homogénéisation hors du contexte académique anglophone reste, elle, presque entièrement à construire. Les études disponibles portent massivement sur l'anglais, sur des corpus scientifiques ou sur des populations étudiantes. Ce que l'homogénéisation produit dans d'autres registres, dans l'écriture professionnelle quotidienne, dans les échanges informels, dans les langues peu dotées en données d'entraînement, reste largement non documenté.
Le problème le mieux formalisé à ce jour n'est pas la contamination ponctuelle, ni même l'homogénéisation progressive : c'est la boucle de rétroaction que ces deux phénomènes rendent possible quand on les combine avec la dynamique d'entraînement des modèles.
Une étude mathématique publiée sur arXiv en 2024 par Seddik et al. formalise ce que ses auteurs nomment le model collapse : lorsqu'un modèle de langage est réentraîné de façon récursive sur des données synthétiques, c'est-à-dire sur des données produites par des LLM plutôt que par des humains, la couverture des queues de distribution se dégrade irrémédiablement.4 En termes non techniques : les formes rares, singulières, marginales du langage disparaissent progressivement des représentations que le modèle est capable de produire. Les régularités dominantes se renforcent, les exceptions s'effacent. Le modèle apprend à produire ce qui ressemble à la majorité, de plus en plus exclusivement.
La boucle que dessinent Geng et Trotta (2025) est la version humaine de ce mécanisme : les modèles influencent l'écriture humaine, cette écriture modifiée retourne dans les corpus d'entraînement futurs, et les modèles suivants apprennent sur un corpus qui porte déjà les traces de leurs prédécesseurs. Ce n'est pas une catastrophe imminente. C'est un glissement structurel, lent et cumulatif, dont les effets sur la diversité du langage disponible ne seront mesurables qu'avec du recul.
Ce risque est d'autant plus difficile à traiter qu'il est invisible à l'échelle individuelle. Chaque auteur qui utilise un LLM pour réviser un texte prend une décision localement raisonnable. L'effet systémique sur la diversité linguistique n'est perceptible qu'à l'échelle des corpus, sur des durées longues, et seulement si quelqu'un les mesure.
L'inégalité de représentation des langues dans les données d'entraînement des LLM est un fait documenté et non contesté. Elle a une conséquence directe sur la question qui nous occupe ici : les effets de contamination et d'homogénéisation ne sont pas symétriques selon les langues. Une langue massivement représentée dans les corpus d'entraînement, l'anglais en tête, est exposée à une contamination intensive mais bénéficie aussi d'une modélisation de haute qualité. Une langue peu dotée en données, qu'il s'agisse d'une langue régionale, d'un arabe dialectal ou d'une langue africaine, est exposée à une modélisation dégradée, à des transferts de régularités depuis les langues dominantes, et à une invisibilisation progressive de ses formes propres.
Un article publié dans la revue Language Policy (2024) documente cette dimension en liant LLM, droits linguistiques et diversité culturelle.5 L'argument central est que l'infrastructure linguistique des LLM n'est pas neutre : elle reproduit et amplifie les hiérarchies existantes entre langues, en rendant les variétés dominantes plus fluides, plus accessibles et plus "normales" que les variétés minoritaires. Ce n'est pas une intention : c'est un effet mécanique de la distribution inégale des données d'entraînement.
La recherche empirique sur ce point reste insuffisante. On dispose surtout de cadres normatifs et de diagnostics structurels, pas encore d'études longitudinales sur la modification effective des pratiques langagières dans des communautés linguistiques minoritaires exposées aux LLM. C'est une lacune que la littérature elle-même reconnaît.
La question de la résistance est la moins documentée de cet ensemble. Ce que les études disponibles suggèrent est plus modeste qu'un mouvement collectif : les humains s'adaptent activement aux LLM, dans les deux sens. Ils adoptent certaines de leurs régularités, mais ils en évitent d'autres dès qu'elles deviennent visibles et stigmatisées. Geng et Trotta nomment ce comportement une adaptation stratégique : les auteurs académiques ont commencé à purger leur écriture des termes trop identifiables comme IA-produits après que ces marqueurs aient été publiquement répertoriés.1 Ce n'est pas de la résistance au sens fort. C'est une négociation continue avec un outil dont la présence est désormais structurelle.
Des propositions institutionnelles existent pour tracer et préserver la part humaine dans l'écriture scientifique. Une étude publiée sur PubMed en 2024 propose une infrastructure de publication avec traçabilité explicite de l'intervention humaine dans les textes révisés avec IA.6 Ce type de dispositif ne ralentit pas la diffusion des LLM dans les pratiques d'écriture. Il crée un enregistrement de ce qui, dans le texte final, reste imputable à un auteur humain identifiable. C'est une réponse de gouvernance, pas une réponse linguistique.
La littérature disponible en 2025-2026 autorise un diagnostic de tendance, pas un verdict définitif. Le langage humain ne disparaît pas. Il n'est pas "remplacé" par le langage des machines. Mais il subit, dans certains registres mesurables, une pression de convergence dont les mécanismes sont maintenant formalisés : contamination lexicale visible dans les grands corpus académiques, homogénéisation stylistique documentée comme risque structurel dans les synthèses récentes, boucle de rétroaction mathématiquement formalisée comme source de dégradation cumulative de la diversité.
Ce qui manque encore : des mesures longitudinales hors du contexte académique anglophone, des études sur les langues peu dotées et les registres informels, et des données sur les effets différenciés selon les pratiques d'usage, entre un auteur qui utilise le LLM comme outil de révision ponctuelle et un auteur qui lui délègue la rédaction de bout en bout.
La question de fond que ces travaux posent sans encore y répondre est celle-ci : si le langage dont disposent les humains pour penser, écrire et se distinguer se rétrécit progressivement par homogénéisation et boucle de rétroaction, qu'est-ce qui se rétrécit avec lui ? La réponse appartient encore aux hypothèses. Mais le fait que la recherche commence à la formuler empiriquement, et non plus seulement philosophiquement, est en soi un signal qui mérite attention.
Références
1. Geng, M. et Trotta, R. Human-LLM Coevolution: Evidence from Academic Writing. Findings of ACL, 2025. DOI : 10.18653/v1/2025.findings-acl.657
2. Shervin et al. Delving into LLM-assisted writing in biomedical publications through excess word analysis. PubMed, 2025. pubmed.ncbi.nlm.nih.gov
3. Sourati, Z. et al. The homogenizing effect of large language models on human expression and thought. Trends in Cognitive Sciences, 2026. DOI : 10.1016/j.tics.2026.01.003
4. Seddik, M. E. A. et al. How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse. arXiv, 2024. DOI : 10.48550/arXiv.2404.05090
5. Intelligence artificielle et diversité linguistique. Language Policy, John Benjamins, 2024. DOI : 10.1075/lplp.00118.mat
6. A publishing infrastructure for Artificial Intelligence (AI)-assisted academic authorship. PubMed, 2024. pubmed.ncbi.nlm.nih.gov