Évaluation des LLM Gemini, ChatGPT et Claude pour la correction d’examens de mathématiques : fiabilité et usages pratiques

Une publication récente sur arXiv examine la capacité de six configurations de grands modèles de langage (LLM) à assister la correction d’examens de mathématiques à l’université. L’étude compare Gemini 3.1 Pro Extended, Gemini 3.5 Flash, ChatGPT 5.5 Pro Extended, ChatGPT 5.5 Thinking, Claude Pro Opus 4.7 et Claude Sonnet 4.6 dans un contexte d’évaluation d’un examen de mathématiques discrètes.

L’enjeu principal est d’évaluer la fiabilité de ces modèles pour appliquer des grilles de notation complexes, notamment celles qui attribuent des crédits partiels selon la qualité des raisonnements, des preuves et des étapes intermédiaires. L’étude explore aussi la praticabilité de ces outils dans un cadre pédagogique réel.

Comparaison de deux politiques de notation : rigueur contre souplesse

Les chercheurs ont testé deux approches de correction automatisée. La politique BASELINE impose un respect strict de la grille, demandant aux LLM de fournir des justifications explicites et complètes pour chaque point attribué. Cette méthode vise à garantir une notation cohérente et transparente, mais elle peut pénaliser les réponses partielles ou imparfaites.

En revanche, la politique LIBERAL, introduite après une première phase, offre plus de latitude aux modèles pour reconnaître des réponses partiellement correctes et accorder des crédits même en l’absence de preuves exhaustives. Cette approche reflète davantage la pratique humaine en correction, où l’interprétation et la compréhension globale jouent un rôle.

Performance des LLM Gemini, ChatGPT et Claude sur des critères pédagogiques

Les six configurations testées ont montré des différences notables. Gemini 3.5 Flash et ChatGPT 5.5 Pro Extended se distinguent par une meilleure capacité à appliquer la grille stricte, produisant des justifications détaillées qui facilitent la transparence de la notation.

Claude Pro Opus 4.7 et Claude Sonnet 4.6, quant à eux, affichent une plus grande flexibilité sous la politique LIBERAL, capable de reconnaître des réponses partielles et d’adapter la notation en fonction du contexte, ce qui peut réduire la charge de travail des correcteurs humains.

Ces différences soulignent que le choix du modèle et de la politique de correction doit être aligné avec les objectifs pédagogiques et les contraintes opérationnelles des établissements.

Intégration des LLM dans les workflows pédagogiques : opportunités et limites

L’usage des LLM comme assistants de correction peut alléger la charge des enseignants, notamment dans les examens ouverts où la notation manuelle est chronophage. En automatisant la reconnaissance des étapes de raisonnement et en appliquant des grilles complexes, ces outils promettent une certaine standardisation.

Cependant, la fiabilité reste conditionnée à la qualité des prompts et à la politique de notation choisie. Les modèles peuvent manquer de cohérence sur des réponses ambiguës ou atypiques, ce qui nécessite une supervision humaine pour valider ou ajuster les notes.

De plus, l’intégration technique dans les systèmes de gestion des examens et la formation des enseignants à ces outils sont des facteurs clés pour leur adoption effective.

Considérations économiques et organisationnelles pour les établissements

L’automatisation partielle de la correction via LLM peut réduire les coûts liés au personnel et accélérer la publication des résultats. Néanmoins, les licences des modèles avancés comme Gemini ou ChatGPT 5.5 Pro Extended impliquent des dépenses récurrentes.

Les établissements doivent aussi investir dans l’adaptation des outils aux spécificités disciplinaires et dans la gestion des données sensibles des étudiants. La balance entre gains d’efficacité et coûts d’implémentation reste à évaluer précisément.

Perspectives d’évolution des modèles pour la notation automatisée

Cette étude montre les progrès mais aussi les limites actuelles des LLM pour la correction d’examens complexes. Les prochaines versions pourraient intégrer des mécanismes plus robustes de justification et d’explicabilité, essentiels pour la confiance des enseignants et des étudiants.

Par ailleurs, le développement de politiques de correction hybrides, combinant rigueur et souplesse, semble une voie prometteuse pour concilier précision et pragmatisme.

Enfin, la collaboration entre chercheurs en IA, pédagogues et responsables administratifs sera déterminante pour définir des standards et bonnes pratiques dans ce domaine émergent.

Sources

Articles et annonces consultés

LLMs as Teaching Assistants for Mathematics Exam Grading: Reliability, and Practical Usability

arXiv cs.AI · 3 juillet 2026 · consulté le 3 juillet 2026

Passer à l'action

Vous voulez identifier les workflows IA qui peuvent transformer votre entreprise ? Parlons-en.

Identifier mes workflows IA