Ce que l'IA change dans notre façon d'écrire

Un signal mesurable dans les corpus

La question n'est plus seulement spéculative. Une étude publiée aux Findings of ACL en 2025 le confirme empiriquement : certains termes fortement associés aux sorties de LLM, à commencer par ce « delve » si souvent repéré, voient leur fréquence chuter dans les textes humains dès qu'ils sont identifiés publiquement comme marqueurs d'IA.¹ Geng et Trotta nomment ce phénomène coévolution. En effet, les modèles influencent l'écriture humaine, et les humains ajustent en retour leur vocabulaire dès que le marqueur devient trop visible.

Kobak, González-Márquez, Horvát et Lause mènent, de leur côté, une analyse à plus grande échelle : plus de quinze millions d'abstracts biomédicaux passés au crible entre 2010 et 2024, avec une rupture nette de fréquence sur certains mots de style après 2022.² Leur estimation avance qu'au moins 13,5 % des abstracts de 2024 auraient été retravaillés par un LLM. Il importe de préciser que la méthode reste indirecte : elle mesure des proxys lexicaux, pas l'usage réel des outils, ce qui en limite la portée interprétative. Mais l'échelle du corpus rend, de ce fait, le signal difficile à ignorer.

Ce que ces deux études mettent au jour, en définitive, tient en un mot : la coévolution. Un ajustement mutuel, dans les deux sens, entre ce que produisent les modèles et la façon dont les humains écrivent. Plus précisément, les humains empruntent certaines régularités des LLM, puis les abandonnent dès qu'elles deviennent trop reconnaissables, et les modèles suivants se réentraînent sur ce corpus déjà transformé. Il ne s'agit donc pas d'un remplacement, mais d'une perturbation continue de l'équilibre entre écriture propre et écriture médiée.

L'homogénéisation : une tendance avérée, une mesure difficile

La seconde dimension que la littérature commence à cartographier concerne l'homogénéisation stylistique. Le mécanisme, en soi, est assez simple à formuler : un modèle de langage est entraîné sur l'ensemble du texte humain disponible et produit des sorties qui correspondent aux régularités dominantes de cet ensemble. Par construction, il est donc moins variable que la moyenne des textes humains dont il est issu, dans la mesure où il lisse les écarts, les singularités et les marges. Quand des millions d'auteurs l'utilisent pour rédiger, réviser ou compléter leurs textes, ils importent, de ce fait, cette régularité dans leurs propres productions.

Sourati et al., dans un article de synthèse publié en 2026 dans Trends in Cognitive Sciences, formalisent ce risque sous le terme de « same-ification » culturelle.³ Les auteurs s'appuient sur plusieurs études empiriques montrant que les sorties des LLM sont structurellement moins variées que les textes humains comparables. Ils soutiennent, en somme, que l'usage massif de ces outils peut uniformiser non seulement le vocabulaire et la structure des textes, mais aussi les modes de raisonnement qui s'y expriment. Il s'agit là d'un article de synthèse argumentative, pas d'une étude expérimentale originale, ce qui fait que ses conclusions restent des inférences plutôt que des démonstrations. Le cadre proposé n'en demeure pas moins analytiquement utile, précisément parce qu'il relie surface linguistique et cognition.

La mesure directe de cette homogénéisation hors du contexte académique anglophone reste, quant à elle, presque entièrement à construire. Les études disponibles portent en effet massivement sur l'anglais, sur des corpus scientifiques ou sur des populations étudiantes. Ce que produit l'homogénéisation dans d'autres registres, dans l'écriture professionnelle quotidienne, dans les échanges informels, dans les langues peu dotées en données d'entraînement, reste ainsi largement dans l'ombre.

La boucle de rétroaction : le risque structurel

Le problème le mieux formalisé à ce jour n'est ni la contamination ponctuelle, ni même l'homogénéisation progressive, mais la boucle de rétroaction que ces deux phénomènes rendent possible une fois combinés à la dynamique d'entraînement des modèles.

Seddik et al., dans une étude mathématique publiée sur arXiv en 2024, formalisent ce que ses auteurs nomment le model collapse : lorsqu'un modèle de langage est réentraîné de façon récursive sur des données synthétiques, c'est-à-dire sur des données produites par des LLM plutôt que par des humains, la couverture des queues de distribution se dégrade irrémédiablement.⁴ En termes non techniques, les formes rares, singulières, marginales du langage disparaissent progressivement des représentations que le modèle est capable de produire. Les régularités dominantes se renforcent, les exceptions s'effacent.

La boucle que dessinent Geng et Trotta (2025) constitue, en ce sens, la version humaine de ce mécanisme. Les modèles influencent l'écriture humaine, cette écriture modifiée retourne dans les corpus d'entraînement futurs, et les modèles suivants apprennent sur un corpus qui porte déjà les traces de leurs prédécesseurs. Ce n'est pas, il faut le préciser, une catastrophe imminente, mais un glissement structurel, lent et cumulatif.

Ce risque est d'autant plus difficile à traiter qu'il demeure invisible à l'échelle individuelle. Chaque auteur qui utilise un LLM pour réviser un texte prend une décision localement raisonnable. L'effet systémique sur la diversité linguistique n'est perceptible, de ce fait, qu'à l'échelle des corpus, sur des durées longues, et seulement si quelqu'un les mesure.

Les langues peu dotées : une fracture structurelle aggravée

L'inégalité de représentation des langues dans les données d'entraînement des LLM est un fait aujourd'hui établi et non contesté. Elle a une conséquence directe sur la question qui nous occupe ici : les effets de contamination et d'homogénéisation ne sont pas symétriques selon les langues. Une langue massivement représentée dans les corpus d'entraînement, l'anglais en tête, est exposée à une contamination intensive, mais bénéficie aussi d'une modélisation de haute qualité. Une langue peu dotée en données, qu'il s'agisse d'une langue régionale, d'un arabe dialectal ou d'une langue africaine, se trouve exposée, à l'inverse, à une modélisation dégradée, à des transferts de régularités depuis les langues dominantes, et à une invisibilisation progressive de ses formes propres.

Un article publié dans la revue Language Policy (2024) traite précisément de cette dimension en liant LLM, droits linguistiques et diversité culturelle.⁵ L'argument central est que l'infrastructure linguistique des LLM n'est pas neutre : elle reproduit et amplifie les hiérarchies existantes entre langues, en rendant les variétés dominantes plus fluides, plus accessibles et plus « normales » que les variétés minoritaires. Il ne s'agit pas là d'une intention, mais bien d'un effet mécanique de la distribution inégale des données d'entraînement.

Il importe cependant de noter que la recherche empirique sur ce point reste insuffisante. On dispose surtout de cadres normatifs et de diagnostics structurels, pas encore d'études longitudinales sur la modification effective des pratiques langagières dans des communautés linguistiques minoritaires exposées aux LLM. C'est une lacune que la littérature elle-même reconnaît.

Comment les auteurs s'adaptent aux LLM

La question de la résistance est, de tout cet ensemble, la moins explorée. Ce que les études disponibles suggèrent est plus modeste qu'un mouvement collectif : les humains s'adaptent activement aux LLM, dans les deux sens. Ils en adoptent certaines régularités, mais en évitent d'autres dès qu'elles deviennent visibles et stigmatisées. Geng et Trotta nomment ce comportement une adaptation stratégique : les auteurs académiques ont commencé, de fait, à purger leur écriture des termes trop identifiables comme IA-produits, une fois ces marqueurs publiquement répertoriés.¹ Il ne s'agit pas là de résistance au sens fort, mais d'une négociation continue avec un outil dont la présence est désormais structurelle.

Des propositions institutionnelles existent, par ailleurs, pour tracer et préserver la part humaine dans l'écriture scientifique. Une étude publiée sur PubMed en 2024 propose ainsi une infrastructure de publication avec traçabilité explicite de l'intervention humaine dans les textes révisés avec IA.⁶ Ce type de dispositif ne ralentit pas la diffusion des LLM dans les pratiques d'écriture ; il crée, plus précisément, un enregistrement de ce qui, dans le texte final, reste imputable à un auteur humain identifiable. C'est là une réponse de gouvernance, non une réponse linguistique.

Ce qu'on sait, ce qui reste à savoir

La littérature disponible en 2025-2026 autorise un diagnostic de tendance, pas un verdict définitif. Le langage humain ne disparaît pas et il n'est pas « remplacé » par le langage des machines. Il subit néanmoins, dans certains registres mesurables, une pression de convergence dont les mécanismes sont désormais formalisés. On peut en distinguer trois volets : (1) une contamination lexicale visible dans les grands corpus académiques ; (2) une homogénéisation stylistique reconnue comme risque structurel dans les synthèses récentes ; (3) une boucle de rétroaction mathématiquement formalisée comme source de dégradation cumulative de la diversité.

Ce qui manque encore, en revanche, tient en trois points : des mesures longitudinales hors du contexte académique anglophone, des études sur les langues peu dotées et les registres informels, et des données sur les effets différenciés selon les pratiques d'usage, entre un auteur qui utilise le LLM comme outil de révision ponctuelle et un auteur qui lui délègue la rédaction de bout en bout.

La question de fond que ces travaux posent, sans y répondre encore, est la suivante : si le langage dont disposent les humains pour penser, écrire et se distinguer se rétrécit progressivement par homogénéisation et boucle de rétroaction, qu'est-ce qui se rétrécit avec lui ? La réponse appartient, pour l'instant, aux hypothèses. Il n'en demeure pas moins que le fait même que la recherche commence à la formuler empiriquement, et non plus seulement philosophiquement, constitue en soi un signal qui mérite attention.