L'IA générative dans l'enseignement académique : transformation réelle, conditions non réunies

Une question mal posée, une réponse introuvable

Le débat public sur l'IA dans l'enseignement supérieur s'est fixé sur deux questions symétriquement mal posées : l'IA va-t-elle dégrader la qualité des apprentissages, ou va-t-elle les améliorer ? Ces deux formulations supposent un effet uniforme, indépendant des contextes, des disciplines, des niveaux d'expertise et des choix pédagogiques. La littérature peer-reviewed des deux dernières années invalide cette supposition.

Une revue systématique publiée dans Computers and Education: Artificial Intelligence en 2026, portant sur 67 études conduites entre 2022 et 2025, formule la réponse la plus robuste disponible à ce jour : ChatGPT et ses équivalents peuvent soutenir le développement cognitif, mais seulement lorsqu'ils sont intégrés dans des designs pédagogiques explicitement construits pour provoquer la régulation métacognique, le raisonnement argumentatif et la génération d'idées.¹ Dans des contextes non structurés, la même étude documente des patterns asymétriques : un gain apparent en fluidité créative qui s'accompagne d'une baisse documentée de la pensée critique. La variable discriminante n'est pas l'outil. C'est le cadre pédagogique dans lequel il s'insère.

Le scaffolding comme variable discriminante

Le concept de scaffolding pédagogique désigne l'ensemble des étayages explicites que l'enseignant conçoit pour guider l'activité cognitive de l'apprenant : consignes structurées, jalons de réflexion, rubriques d'évaluation du processus, boucles de rétroaction. Dans le contexte de l'IA générative, il désigne plus spécifiquement tout ce qui oblige l'apprenant à exercer son propre jugement plutôt qu'à déléguer sa réponse à l'outil.

C'est là que la littérature est la plus cohérente. La revue de Li, Cui et Hagedorn (2026) documente que le déchargement cognitif, soit l'usage de l'IA comme raccourci évitant l'effort de pensée, entraîne une baisse conjointe de la pensée critique et de la créativité profonde.¹ Une étude empirique sur les déterminants de l'adoption de l'IA générative par les étudiants, conduite via le modèle UTAUT2 auprès d'une cohorte universitaire russe, identifie l'habitude comme le prédicteur le plus influent de l'usage.² Ce résultat est analytiquement important : si l'usage de l'IA devient habitudinal, il se soustrait précisément à la délibération et à la régulation métacognitive qui conditionneraient ses effets bénéfiques. L'adoption intensive, quand elle est non encadrée, produit l'opposé de ce qu'elle promet.

Une scoping review publiée en 2025 portant sur 25 études relatives à l'usage de l'IA générative pour l'écriture académique tire le même fil : les bénéfices documentés (organisation du discours, fluidité rédactionnelle, réduction de l'anxiété) coexistent avec des risques réels de sur-reliance, d'hallucinations de citations et d'affaiblissement des compétences de raisonnement propre.³ La conclusion n'est pas que les bénéfices sont illusoires. C'est qu'ils dépendent d'un encadrement pédagogique explicite qui, dans la plupart des cas documentés, n'est pas en place.

L'évaluation : la dimension la plus déstabilisée

Parmi toutes les dimensions de l'enseignement académique affectées par l'IA générative, l'évaluation est celle où la déstabilisation est la plus documentée et la plus difficile à résoudre. Une étude publiée dans Frontiers in Education (2024), fondée sur des ateliers de formation conduits avec 333 éducateurs du Global South, cartographie l'ampleur du problème : la dissertation traditionnelle, le devoir à rendre, l'examen à la maison sont devenus des instruments d'évaluation dont on ne sait plus avec certitude ce qu'ils mesurent.⁴

La même étude documente les stratégies d'adaptation que ces enseignants ont développées : évaluation par processus (évaluation de l'interaction avec l'outil, pas seulement du produit final), écriture réflexive ancrée dans des expériences personnelles non reproductibles par l'IA, évaluation authentique sur des cas réels contextualisés, multimodalité (podcasts, présentations orales, productions hybrides). Ces adaptations sont prometteuses. Elles supposent toutes, sans exception, une augmentation significative de la charge de travail enseignant et une réflexion institutionnelle sur ce que l'évaluation est censée mesurer.

La question des outils de détection mérite une note particulière : la position de l'université Cornell, qui fait référence dans la littérature, est sans ambiguïté. Elle déconseille explicitement le recours aux algorithmes de détection automatique pour les décisions d'intégrité académique, en raison de leur non-fiabilité documentée et de leur taux de faux positifs.⁵ Les institutions qui ont déployé ces outils comme réponse à la "crise" de l'intégrité académique ont choisi une solution qui crée davantage de problèmes qu'elle n'en résout.

La rétroaction pédagogique : un potentiel réel sous conditions

L'un des usages les mieux documentés et les plus solides empiriquement concerne la rétroaction automatisée sur les productions étudiantes. Une recension publiée dans la Revue internationale des technologies en pédagogie universitaire (2025) synthétise la recherche sur ce point : les outils d'IA générative permettent une rétroaction personnalisée, immédiate et disponible en dehors des horaires d'enseignement, ce qui représente un gain réel notamment pour les étudiants qui n'ont pas accès à un soutien humain intensif.⁶

La même recension introduit cependant une nuance que les promoteurs de ces outils mentionnent rarement : la qualité de la rétroaction dépend directement de la conception conceptuelle du système, pas seulement de sa conception technique. Un système d'IA entraîné à produire des commentaires formels sur la structure d'un texte ne favorise pas nécessairement la compréhension en profondeur ni le transfert des connaissances. La rétroaction automatisée peut être immédiate et abondante sans être formatrice. Ce résultat rejoint la distinction établie dans la littérature sur la cognition entre accès à l'information et encodage profond : la disponibilité ne produit pas l'apprentissage.

Le rôle enseignant : une reconfiguration documentée, une formation insuffisante

La littérature sur la transformation du rôle enseignant est moins robuste empiriquement que celle sur les effets cognitifs ou les pratiques évaluatives. Les cadres théoriques disponibles convergent cependant vers une idée cohérente : le rôle de transmetteur exclusif de savoirs est partiellement délégué à l'outil, et l'enseignant est renvoyé vers des fonctions de curateur, de guide et de concepteur de dispositifs d'apprentissage. Ce déplacement n'est pas en lui-même une dégradation. Il correspond à une idée pédagogique ancienne et bien fondée.

Ce qui est problématique, c'est le hiatus entre ce déplacement attendu et les formations disponibles pour y préparer les enseignants. L'étude d'Alkouk et Khlaif (2024) documente cet écart à partir des témoignages de 333 éducateurs : les nouvelles compétences requises (conception de scaffolds, évaluation par processus, médiation dans l'interaction humain-IA, AI-literacy critique) ne font l'objet d'aucune formation continue structurée dans la majorité des institutions représentées.⁴ L'injonction à "s'adapter" est réelle. Les ressources pour le faire ne le sont pas.

L'équité : une fracture structurelle, pas seulement technologique

La base de preuves disponible présente un biais géographique que la scoping review de 2025 documente explicitement : la recherche est massivement produite dans des contextes anglophones et bien dotés du Global North.³ Les études sur les contextes du Global South sont rares, et les quelques travaux disponibles dessinent un tableau préoccupant.

L'étude d'Alkouk et Khlaif (2024), conduite avec des éducateurs d'Afrique du Nord, du Proche-Orient et d'autres pays du Global South, identifie trois types de contraintes qui s'additionnent : contraintes financières d'accès aux outils, absence de vision institutionnelle claire, et déficits d'infrastructure numérique.⁴ Ce constat a une implication directe : si l'intégration pédagogique efficace de l'IA générative requiert un scaffolding explicite, une formation enseignante de qualité et une révision des dispositifs d'évaluation, alors les institutions les moins dotées sont précisément celles qui ont le moins de capacité à réunir ces conditions. L'IA ne crée pas les inégalités éducatives Nord-Sud, mais elle risque de les amplifier par un mécanisme simple : les gains sont conditionnels à des ressources que les contextes défavorisés ne possèdent pas.

Ce que la littérature ne permet pas encore de dire

Il serait inexact de présenter cet état de l'art comme définitif. Plusieurs lacunes méritent d'être nommées explicitement, parce qu'elles délimitent ce qu'on peut raisonnablement conclure. La quasi-totalité des études disponibles sont transversales et à court terme : aucune donnée longitudinale ne documente les effets à un an ou plus sur la rétention des connaissances, le développement de compétences professionnelles ou la capacité à raisonner de manière autonome dans un contexte où l'IA n'est pas disponible. Les mesures d'apprentissage profond, de métacognition et d'autonomie intellectuelle restent mal opérationnalisées d'une étude à l'autre, ce qui rend les comparaisons fragiles. Et les effets différenciés selon le niveau socio-économique des étudiants, leur origine ou leur discipline sont presque entièrement non documentés.

Ce que la littérature permet d'affirmer avec une robustesse suffisante tient en une proposition : l'IA générative transforme l'enseignement académique en profondeur, mais cette transformation est conditionnelle. Sans une refonte explicite des dispositifs d'évaluation, sans scaffolding pédagogique structuré, et sans formation des enseignants aux nouvelles compétences requises, l'intégration de l'IA générative produit des gains de surface et des risques de fond. Les institutions qui ont compris cela sont encore minoritaires. La plupart réagissent à l'outil sans avoir décidé ce qu'elles voulaient que leurs étudiants apprennent.