L'évaluation dans le système éducatif - Dominique Odry - E-Book

L'évaluation dans le système éducatif E-Book

Dominique Odry

0,0

Beschreibung

Dominique Odry réfléchit à la notion d'évaluation en milieu scolaire et propose des pistes de réflexion pour en maximiser les impacts positifs.

Tantôt jugée néfaste pour le développement de l’élève, tantôt considérée comme injuste, l’évaluation à l’école est régulièrement décriée par le grand public et souvent remise en question dans les débats politiques. Pourtant, son importance et son utilité pour mesurer l’état des connaissances dans une discipline, mais aussi pour observer l’évolution des élèves et l’acquisition des compétences, sont indéniables. Par ailleurs, l’élève n’est aujourd’hui plus le seul à être évalué. Les enseignants le sont aussi, tout comme les établissements scolaires, et même le système éducatif en tant que tel est soumis à un examen minutieux afin d’en déterminer l’efficacité. L’évaluation revêt différentes formes et ne s’effectue pas de la même manière à chaque niveau. Au fil de cet ouvrage, Dominique Odry revient sur la notion d’évaluation, son utilité et ses différentes facettes. Il fournit des pistes pour nourrir la réflexion globale portant sur la manière d’évaluer au mieux les élèves, les établissements scolaires et les politiques éducatives. En effet, si l’on détermine avec précision ses objets et ses moyens, l’évaluation peut devenir un formidable outil pour adapter l’enseignement aux besoins et aux difficultés de chacun, et ainsi former au mieux les futurs citoyens et orienter les politiques de la société de demain.

Un ouvrage nécessaire par un spécialiste du domaine de l'éducation.

EXTRAIT

Qu’y a-t-il de commun entre les résultats en français des élèves de CM2 dans l’enquête PISA, la notation d’un fonctionnaire, l’estimation des compétences d’un salarié au moment de son recrutement, les résultats au bac des élèves d’un lycée, l’appréciation d’une politique du logement d’une collectivité territoriale, ou bien la mesure de la qualité d’un service public ? Peu de choses, pensera-t-on a priori. Pourtant, il y est chaque fois question de la production d’un jugement de valeur qui a des incidences sur des décisions à prendre, que ce soit la régulation d’un dispositif de formation, l’orientation d’un élève, l’attribution d’un budget, d’une prime au mérite, ou tout simplement l’énonciation d’un jugement.
L’objectif de cet ouvrage est de montrer qu’il est important de comprendre quels sont les notions et les concepts qui traversent ces différentes pratiques, ce qui en fait les jeux et les enjeux, mais également les pièges. Plutôt que de disposer d’un simple mode d’emploi lié à sa pratique professionnelle (savoir corriger un devoir écrit, construire une épreuve de diagnostic du maniement de la langue, mettre en oeuvre un dispositif d’évaluation du projet d’un établissement scolaire, apprécier l’efficacité d’un dispositif de formation…), il devrait être utile pour le praticien, le responsable, l’usager, le simple citoyen, de disposer d’une « culture d’évaluation » lui permettant d’en être partie prenante, et non pas simple « objet » passif dont les actions ou les productions sont évaluées.

À PROPOS DE L'AUTEUR

Dominique Odry a été inspecteur de l’Éducation nationale, puis a assuré pendant douze ans le rôle de responsable formation à l’École supérieure de l’Éducation nationale auprès des inspecteurs et des chefs d’établissements. Il a été conseiller auprès du directeur de la formation de la police nationale.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 519

Veröffentlichungsjahr: 2020

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Couverture

Page de titre

Pour Victor et Clara, cœurs vaillants

« L’homme est un animal estimateur par excellence. »

F. Nietzsche

« La société a le droit de demander compte à tout agent public de son administration. »

Article 15 de la Déclaration des droits de l’homme et du citoyen

« Peser le cochon tous les jours ne fait pas qu’il engraisse. »

Proverbe allemand

Introduction

En France, au début des années 80, la formation permanente des enseignants du secondaire devient un droit, à raison de six journées par an. Le ministère d’Alain Savary a déjà ouvert de nombreux chantiers qui vont perdurer plusieurs années. Création des Zones d’éducation prioritaire, des Projets d’action éducative, rénovation du collège, projets d’établissements, et bientôt formation commune pour tous les enseignants sont autant d’objets de travail qui sont souvent l’objet de réactions hostiles de la part des enseignants et de leurs syndicats. Les conseillers qui entourent le ministre viennent des mouvements pédagogiques et d’un syndicat, le SGEN, qui milite pour l’innovation pédagogique. Le ministère de l’Éducation du premier gouvernement de gauche de la cinquième république vise une transformation générale du système éducatif, projet qui sera freiné par les avatars de la réforme de l’enseignement privé. La réforme du ministre René Haby qui a supprimé, au moins dans la forme, les filières du collège a seulement six ans d’existence. Les enseignants du collège, dont la formation initiale est uniquement académique, ont subi de plein fouet l’apparition de classes profondément hétérogènes, face auxquelles ils se sentent désarmés. Dans de nombreux établissements, tout est bon pour recréer des classes de niveau : jeu sur le choix de la première langue vivante, choix du latin, du grec, non-respect de la carte scolaire, etc. D’autres jouent le jeu et questionnent les méthodes et dispositifs pédagogiques traditionnels. C’est dans ce contexte que sont offertes aux enseignants de collège les premières formations continues transversales. La formation n’est plus conçue comme uniquement disciplinaire, et une large palette thématique est proposée : l’analyse par objectifs, la pédagogie différenciée, les méthodes de travail (« Apprendre à apprendre »), le tutorat, etc. Il s’agit d’adopter une nouvelle approche pédagogique pour faire face à l’hétérogénéité du groupe classe, quitte à remettre en question la sacro-sainte identité disciplinaire des professeurs.

C’est dans ce contexte que les premières formations à l’évaluation font une timide apparition. Le mot même est jusqu’alors peu employé. La notation, les appréciations écrites ou orales, les examens ou les décisions d’orientation sont les outils uniques de ce qu’on va bientôt appeler « l’évaluation ». C’est le concept d’évaluation formative qui marque une véritable coupure avec les modalités traditionnelles d’appréciation du travail des élèves. Peut-on utiliser une méthodologie qui ne se contente pas de faire la somme des connaissances, mais qui permet non seulement d’adapter l’enseignement aux difficultés de chacun, mais également d’en réguler le contenu en cours d’apprentissage ? Ce concept, nouveau pour l’Hexagone, ne l’est plus dans d’autres pays francophones. Des pratiques pédagogiques le mettant en œuvre ont déjà cours au Québec, en Suisse, en Belgique. Et il est apparu aux États-Unis à la fin des années 60. En France, des disciplines comme l’éducation physique et sportive, ou bien les mathématiques (par l’intermédiaire des Instituts de Recherche des Mathématiques, les IREM), vont être pilotes dans ce domaine. Mais il y a loin de la théorie à la pratique. Adopter une approche formative de l’évaluation implique de remettre en question le processus même de la façon d’enseigner, ce qui n’est pas évident dans un système corseté par l’exigence des programmes scolaires.

Quelques années plus tard, c’est une autre thématique qui va faire l’effet d’un coup de tonnerre dans un ciel qui est loin d’être serein, celle de l’évaluation des établissements scolaires. Jusque-là, le fait que certains établissements, toute chose étant égale par ailleurs, puissent « faire mieux » que d’autres est un sujet tabou. Un mensuel qui connaît une large diffusion, « Le Monde de l’Éducation », publie chaque année un palmarès des lycées en prenant comme simple variable le taux de réussite au baccalauréat. L’indicateur que va utiliser la toute nouvelle Direction de l’Évaluation et de la Prospective, qui introduit l’idée d’une « valeur ajoutée » par certains établissements, est véritablement iconoclaste. Cela modifie profondément le Hit-Parade consulté par de nombreux parents d’élèves. Le chantier de l’évaluation des établissements du secondaire vient de s’ouvrir, accompagné bientôt par celui du système éducatif lui-même, qui va être nourri par les comparaisons internationales.

L’évaluation s’est donc installée durablement dans l’environnement professionnel et culturel des acteurs du système éducatif, incluant également celle de leur professionnalité. Ce phénomène n’est pas propre au champ éducatif. Dans le travail social, la santé, dans tous les métiers qui mettent en jeu le rapport à autrui, y compris les métiers de la sécurité, et dans le champ général des politiques publiques, la question de l’évaluation est présente. Omniprésente ? Si les pratiques d’évaluation se sont effectivement diversifiées, en tient lieu souvent un discours incantatoire, « il faut évaluer », peu suivi d’effets. Présentée comme une pratique progressiste il y a une trentaine d’années (y voir plus clair, objectiver des résultats…) l’évaluation est devenue objet de méfiance et de suspicion, parfois appréhendée comme une stratégie de contrôle ou de manipulation.

Qu’y a-t-il de commun entre les résultats en français des élèves de CM2 dans l’enquête PISA, la notation d’un fonctionnaire, l’estimation des compétences d’un salarié au moment de son recrutement, les résultats au bac des élèves d’un lycée, l’appréciation d’une politique du logement d’une collectivité territoriale, ou bien la mesure de la qualité d’un service public ? Peu de choses, pensera-t-on a priori. Pourtant, il y est chaque fois question de la production d’un jugement de valeur qui a des incidences sur des décisions à prendre, que ce soit la régulation d’un dispositif de formation, l’orientation d’un élève, l’attribution d’un budget, d’une prime au mérite, ou tout simplement l’énonciation d’un jugement.

L’objectif de cet ouvrage est de montrer qu’il est important de comprendre quels sont les notions et les concepts qui traversent ces différentes pratiques, ce qui en fait les jeux et les enjeux, mais également les pièges. Plutôt que de disposer d’un simple mode d’emploi lié à sa pratique professionnelle (savoir corriger un devoir écrit, construire une épreuve de diagnostic du maniement de la langue, mettre en œuvre un dispositif d’évaluation du projet d’un établissement scolaire, apprécier l’efficacité d’un dispositif de formation…), il devrait être utile pour le praticien, le responsable, l’usager, le simple citoyen, de disposer d’une « culture d’évaluation » lui permettant d’en être partie prenante, et non pas simple « objet » passif dont les actions ou les productions sont évaluées.

J’ai pensé que le lecteur, pour peu qu’il soit intéressé par l’univers de l’éducation et de la formation, pourrait cheminer à l’aide des balises qui furent les miennes au cours des trois dernières décennies. D’abord la question de l’évaluation des élèves, puis celle des établissements scolaires, des systèmes éducatifs et des politiques publiques, enfin l’appréhension des stratégies et concepts communs à tout dispositif d’évaluation, avec une insistance sur la notion même de valeur, dont la théorisation est souvent absente dans des pratiques fortement marquées par la modélisation technologique.

Chapitre I L’évaluation des élèves

Noter

Nota, en latin, désigne une marque de reconnaissance imprimée ou une empreinte. Mais dans la langue du droit, nota censoria désigne la marque par laquelle les censeurs signalaient sur leur registre les citoyens répréhensibles, d’où le sens de flétrissure, d’infamie, d’ignominie. En français, note va d’abord être un terme musical, puis, à partir du XIIIe siècle, va également désigner ce qui est consigné par écrit (mettre en note). Au XIIe siècle, « noter » a le sens juridique fort d’accuser, et une évolution sémantique conduira, au XIXe siècle, au sens moderne, neutre, de porter une appréciation sur le travail de quelqu’un dans un cadre pédagogique ou professionnel. Pour de nombreuses générations, la note scolaire est chargée d’une dimension symbolique forte, à dimension sociale, et des souvenirs des « bonnes » et « mauvaises » notes qu’on a reçues. Il y a fort à parier que, si l’on interroge des personnes au hasard, beaucoup se souviendront d’une note scolaire, jugée juste ou injuste, positive ou négative, et qui est restée comme une « marque »…1

En novembre 2010, l’Association de la fondation des étudiants pour la ville (AFEV) lance un appel pour la suppression des notes à l’école primaire : « ce système de notation, et l’obsession du classement auquel il répond, crée, dès l’école primaire, une très forte pression scolaire et stigmatise les élèves qu’il enferme, progressivement, dans une spirale d’échec ». Pour les signataires, dont des personnalités comme Boris Cyrulnick, Axel Kahn ou Michel Rocard, il faut « desserrer l’étau de l’évaluation constante ». Cet appel déclenche, comme souvent en France où ce qui touche à l’école peut rapidement prendre un côté passionnel, des réactions violentes.

Un sondage conduit par l’IFOP en août 2012 indique que 77 % des parents d’élèves et 39 % des enseignants se positionnent contre cette suppression putative. La majorité politique vient alors de changer, et on parle à nouveau de rénovation du système éducatif. S’il est bien connu que ce type de sondage oblige souvent les répondants à choisir une opinion sur un sujet auquel ils n’ont pas réfléchi au préalable, il démontre néanmoins ce qu’on a pu appeler « l’attachement à la note » d’une majorité de Français. Mais leur a-t-on vraiment fourni les éléments pour problématiser cette question ?

Le sujet est davantage en débat chez les experts que chez les usagers ou les enseignants. En 2014, le ministère met en place une conférence nationale sur l’évaluation des élèves, qui se conclut par la remise du rapport d’un jury qui formule des recommandations. Le jury constate une très grande hétérogénéité de la notation sur le territoire national. Sa fréquence d’utilisation, les objets sur lesquels elle porte sont très variables, particulièrement en ce qui concerne l’enseignement élémentaire. Ainsi est-il conseillé de généraliser l’abandon de la notation chiffrée au long des cycles 1, 2 et 3, classe de sixième comprise, au profit d’échelles de performance. Le cycle 4 devra être la période au cours de laquelle les élèves rencontreront pour la première fois la notation chiffrée.

La note, dans sa dimension pratique, mais également symbolique, reste la modalité d’évaluation la plus couramment pratiquée, et s’inscrit dans l’inconscient collectif. Toujours massivement utilisée dans le système scolaire, elle l’était également dans la fonction publique, où chacun des agents était noté, avec des conséquences sur sa rétribution et son avancement dans la carrière. Concernant l’école, il semble encore difficile, aussi bien pour les enseignants que pour les usagers, de pouvoir s’en passer. Sinon, comment savoir ce que « vaut » un élève ? De plus, il s’agit la plupart du temps de la seule modalité d’évaluation que beaucoup de générations ont connue, et il y a comme une couleur d’éternité pour un système dont on pense qu’il existe depuis l’origine de l’école. Or, à l’échelle de l’histoire de l’éducation en Europe, le système de la notation est relativement récent.

À l’origine : la compagnie de Jésus

Ce n’est pas l’école obligatoire qui est à l’origine des notes, mais les collèges de jésuites. Le projet de la compagnie de Jésus est de former les futures élites, nonobstant le privilège de la naissance. Il va reposer sur trois moteurs : la discipline, la répétition, et la concurrence entre les élèves. Il faut créer de l’émulation entre ces derniers. Et pour juger ce que vaut un élève, il faut pouvoir le classer. Ce dernier principe est fondamental si on veut comprendre l’origine de la notation. Ce ne sont pas les acquis comparés à un modèle qui vont faire la « valeur » de l’élève, mais bien son rang de classement par rapport aux autres. Sa performance ne vaut que par rapport à celle de ses camarades. L’enseignement est d’abord élitiste, il faut privilégier les plus méritants et éliminer les autres. L’émulation est ainsi synonyme d’élimination, mais une élimination qui repose sur la méritocratie. D’ailleurs, le score chiffré est utilisé, mais pas encore la notation au sens strict. C’est l’attribution de points lors de la correction des devoirs écrits, puis ceux obtenus pour valoriser des compétences aussi bien scolaires que morales ou religieuses, qui permet un cumul nécessaire au classement.

C’est le concours d’entrée à l’École polytechnique qui introduit véritablement la note chiffrée, les professeurs des classes préparatoires scientifiques recourant progressivement, à partir du milieu des années 1800, à la notation sur vingt. D’un simple classement des candidats, on passe à une notation sur vingt, qui, par son aspect d’objectivité, rend plus faciles les justifications face aux recours de candidats non admis (Merle 2018). Ce système se diffusera progressivement dans l’enseignement public, et un arrêté de 1890 instaure la notation des compositions par les collèges et lycées à partir d’une échelle de vingt points. Ainsi, l’école républicaine, qui pourtant s’oppose à l’enseignement religieux, va conserver et même amplifier le système de la notation, et la France, à la différence de ses voisins suisses ou belges, va adopter une graduation de 0 à 20.

Du coup, la référence inconsciente n’est plus le groupe classe, mais une échelle universelle : on « vaut » un, dix, quinze… Et comme dans un implicite principe naturel, les notes se distribuent sous la forme d’une courbe de Gauss, avec quelques bons et mauvais élèves, et beaucoup de moyens. Dans les « petites écoles » du Moyen âge, on rétribuait l’instituteur en fonction de l’apprentissage visé : apprendre à lire les lettres, apprendre à les écrire, les combiner. L’acquisition de chaque bloc de savoir était constatée, et donnait lieu à une rétribution spécifique. Ce qu’on vérifiait, c’était l’acquisition d’une étape. Ce qui fait dire à Jean Cardinet : « Dans les écoles du peuple, l’évaluation se faisait ainsi tout naturellement par “objectifs” » (1991).

Pierre Merle, dans son travail historique sur la notation, rappelle que le système de correction adopté par les jésuites s’oppose à celui en vigueur dans les instituts des frères des écoles chrétiennes. Pour ces derniers, la finalité du travail scolaire n’est pas de se mesurer aux autres, et le passage à une leçon supérieure repose sur une forme d’évaluation des compétences. Ce que remarque l’auteur, c’est que l’opposition historique entre les pratiques d’évaluation des élèves en vigueur dans les collèges jésuites et celles en œuvre dans les écoles chrétiennes demeure pleinement contemporaine. Il n’y a qu’à observer les débats sur l’évaluation des compétences au collège qui ne peut se traduire par une note chiffrée. Et l’auteur écrit à propos de l’historique de l’utilisation de la note à l’école : « Cet état des lieux des pratiques d’évaluation des élèves montre le non-recours de façon régulière à la notation chiffrée dans l’organisation des enseignements primaires et secondaires, au moins jusque dans les années 1880. Soit, dans les établissements secondaires, prédomine le classement des élèves ; soit, dans les écoles primaires, les apprentissages se réalisent en dehors de classement et notation » (p. 65). Pourquoi alors un tel attachement des usagers à ce système d’évaluation ?

Une question d’échelle

On peut s’interroger sur les raisons d’un tel attachement des usagers à un système d’évaluation dont la faillibilité ne cesse d’être interrogée. Outre un attachement aux traditions, on peut faire l’hypothèse d’une synonymie entre mesure et rigueur pour beaucoup de personnes. Mais que mesure vraiment la note ? Stanley Smith Stevens, un psychologue américain, élabore en 1946 une formalisation des échelles de mesure en psychologie, qui est encore largement utilisée. Les réponses sont à chercher du côté du problème de la mesure en sciences humaines.

Une échelle est un ensemble de graduations d’un tableau de mesures qui permet de donner une fourchette de valeurs, ainsi que de quantifier des phénomènes non mesurables. S.S. Stevens en retient quatre, chacune possédant des règles de légitimité concernant les calculs qu’on peut appliquer aux nombres dont elles sont formées.

Les échelles nominales : elles regroupent des observations en catégories identifiées par un symbole (une étiquette) : homme/femme pour identifier le sexe, admis/non admis à un concours, catégories socioprofessionnelles, lieux de résidence, etc. Avec ce type d’échelle, on ne peut faire qu’une opération mathématique : compter le nombre d’éléments dans une catégorie, et ainsi en observer la fréquence traduisible par un pourcentage.

Les échelles ordinales : elles permettent d’établir une relation d’ordre entre les éléments d’un ensemble, mais on ne peut estimer de façon quantitative la distance qui sépare les éléments entre eux. Une catégorie socioprofessionnelle attribuée à un sujet est une étiquette, et aide à constituer une échelle nominale. Si on décide d’établir un ordre entre ces catégories (par exemple parce qu’elles sont synonymes de différences de revenus ou de prestige social), on classera par exemple de manière ascendante les ouvriers, puis le technicien, puis les ingénieurs. Il y a bien un ordre, mais on ne peut évaluer de façon quantitative la distance qui sépare les éléments. Un exemple en est donné dans la note scolaire sous forme de lettres (A B C D E). Un A est supérieur à un B, mais rien ne dit qu’un élève auquel a été attribué un A à une maîtrise des savoirs concernés deux fois plus importante que l’élève noté par un B. De même, une échelle couramment utilisée pour la rédaction des réponses à un questionnaire (l’échelle de Lickert), et visant à recueillir un indice de satisfaction, propose aux répondants de choisir une réponse dans la liste suivante : Tout à fait d’accord, d’accord, ni l’un ni l’autre, pas d’accord, pas du tout d’accord. Il va de soi que « D’accord » signifie un indice d’adhésion supérieur à « Ni l’un l’autre », mais on ne peut considérer que l’écart ou la distance sont les mêmes entre « Pas d’accord » et « Pas du tout d’accord ». Les échelles ordinales ne permettent pas de mesurer la taille de l’écart qui existe entre les rangs.

Les échelles relatives, ou échelles à intervalles, permettent par contre de définir numériquement les intervalles entre les données. L’exemple le plus connu est celui des échelles de température. La différence entre une température de 5 degrés et de 10 degrés est la même qu’entre une température de 30 et de 35 degrés (dans la mesure où ces deux différences impliquent une augmentation de l’énergie consommée identique) ; pour autant, on ne peut affirmer qu’une eau à 10 degrés est deux fois moins chaude qu’une eau à 20 degrés.

Les échelles de rapport ont les mêmes propriétés, elles impliquent que la distance entre deux unités est la même tout au long de l’échelle, mais, à la différence des précédentes, le zéro existe, comme symbolisant l’absence d’un élément (ce qui n’est pas le cas par exemple dans les échelles relatives : zéro degré ne signifie pas l’absence de température). Ces échelles permettent non seulement de quantifier la différence entre deux éléments, mais également de calculer des rapports entre deux mesures : une distance de 20 mètres est le double d’une distance de dix mètres, et le système métrique peut laisser à penser que cette différence pourrait se décomposer à l’infini, ce qui est à l’origine du paradoxe de Zénon2.

La notation scolaire, telle qu’elle est pratiquée, ne peut être considérée comme une échelle de rapport. Il ne peut y avoir de zéro naturel ou absolu comme il en existe en physique pour mesurer la température, comme d’ailleurs il n’y a pas non plus de maximum absolu pour évaluer une compétence. Tout au plus devrait-on être dans le simple relevé d’un score, ou éventuellement dans une échelle ordinale. Mais rien n’indique que la différence à un devoir entre treize et vingt est équivalente à celle entre douze et cinq au même devoir.

Au-delà d’un attachement à une tradition qui voit dans la notation scolaire un facteur puissant d’objectivation d’un niveau de connaissances et de réussite, on peut voir deux raisons au fait que, malgré les critiques faites à ce système d’évaluation, il reste une modalité de jugement dont les acteurs du système éducatif ont du mal à se défaire. D’abord, et il s’agit d’un non-dit, la note reste profondément, même quand l’objectif n’en est pas affiché, attachée à la notion de classement par rapport au groupe. Savoir ce qu’on vaut, ce que son enfant vaut, doit se faire par rapport aux autres, et ne prend sa véritable valeur que par rapport aux autres. Ensuite, par son inscription dans le système décimal, la notation scolaire donne l’impression d’une rigueur mathématique, mais d’une rigueur factice au regard du rapport entre la mesure et la chose mesurée.

La notation promet plus qu’elle ne peut tenir.

Docimologie

Dès les années 30, on mène des études statistiques prenant pour objet des notes attribuées lors de la correction de copies. Il ne s’agit pas de critiquer le principe de la notation, mais plutôt d’améliorer son efficacité, c’est-à-dire de la rendre plus « juste ». Et ce en diminuant, autant qu’il est possible, son degré d’incertitude. Une commission française (« L’enquête Carnegie ») réalise une étude sur un diplôme prestigieux – puisqu’il permet l’accès aux professions libérales –, le baccalauréat. Cette étude démontre que le principe d’incertitude est important dans la correction des copies du bac, les écarts sont forts entre les correcteurs pour une même copie, et, par exemple, pour la philosophie, qui est la discipline pour laquelle les écarts les plus importants sont constatés, il faudrait faire la moyenne entre les scores attribués par 127 correcteurs pour obtenir la « note vraie »… Les utilisations de barèmes ne sont pas non plus une garantie, même lorsqu’une question est notée sur un demi-point, tant les interprétations de ce qu’est une bonne réponse varient d’un enseignant à l’autre. Pour autant, des études plus récentes ne valident pas le fait que le baccalauréat serait une « loterie ». Mais lorsqu’on compare les notes obtenues au bac et la moyenne de celles obtenues par l’élève au cours de l’année, la corrélation est forte pour les bons élèves, et elle l’est moins pour les moins bons : « Alors que l’obtention de la moyenne pendant l’année est un bon prédicteur de la réussite au bac, la non-obtention de la moyenne ne prédit pas forcément l’échec, et la réussite au bac est en partie aléatoire pour cette seconde catégorie de candidat » (Merle, 1998, p. 15).

Des travaux ultérieurs vont tenter d’expliquer ces incertitudes de la notation. Ainsi est constatée l’importance de l’ordre des copies. Une même copie sera surévaluée lorsqu’elle est corrigée après une copie faible, mais par contre sera sous-évaluée lorsqu’elle est corrigée après une copie forte. Il s’agit de ce qu’on appelle « l’effet de halo ». Un autre mécanisme est observé : certaines copies vont servir de gabarit de manière inconsciente chez le correcteur ; ce qu’on va appeler « l’effet d’ancrage ». Une bonne copie jouera, le temps de la correction, un rôle de modèle, ce qui aura pour conséquence l’attribution, pour les autres copies, d’un score moindre que si cette « ancre » n’avait pas été présente. D’autres effets plus inquiétants vont être observés, particulièrement à une époque où, en France, l’enseignement est profondément filiarisé. Il y a un effet, pour le correcteur, de la connaissance du niveau scolaire de l’élève (selon la classe où il est affecté), ainsi que de son origine sociale. Ces phénomènes sont démontrés par une démarche expérimentale, où un même devoir va être soumis au jugement professoral, en le présentant comme le travail d’un élève provenant d’une classe en fait fictive. Les élèves provenant de soi-disant bonnes classes sont mieux notés. Il y a donc un effet du statut scolaire, effet inconscient, dans la manière dont l’enseignant note. Et il en est de même pour le poids de la variable « appartenance sociale ». L’activation de stéréotypes sociaux fait qu’on sera plus généreux avec un élève dont les parents sont issus d’un milieu favorisé. Pour quelle raison ? Effet de halo de la condition sociale qui fait que, lorsqu’on est issu des classes populaires, on est moins doué pour les études ? Une anecdote m’a été récemment rapportée par une dame dont les parents étaient ouvriers et qui, au vu de ses très bons résultats en mathématiques, avait demandé une orientation en seconde C (scientifique, la plus prestigieuse) en fin de classe de troisième, au début des années 70. Cette orientation lui fut refusée par le chef d’établissement qui énonça sa bonne foi de la manière suivante : « Vos parents ne pourront pas financer pour vous d’études supérieures ». Notre dame alors adolescente s’accrocha et réussit haut la main l’examen d’accès à la seconde C, dont on lui refusait l’entrée au motif de l’insuffisance des revenus de ses parents… D’autres effets sont bien connus : ceux liés au groupe, ainsi qu’à l’établissement d’origine. Ainsi, dans certains lycées parisiens prestigieux, les moyennes pratiquées sont volontairement basses, car le pôle magnétique de l’enseignement qui y est dispensé est représenté par les classes préparatoires et les grandes écoles, pour lesquelles il faut s’habituer à la sévérité du jugement.

Plus récemment, on s’est intéressé à la cartographie inconsciente des enseignants dans leur conception de l’évaluation de l’ensemble de leur classe. André Antibi parle à ce sujet de « constance macabre », phénomène par lequel les enseignants se sentent obligés de mettre de mauvaises notes à un certain nombre d’élèves. Phénomène entretenu par la difficulté des questions, la longueur du sujet, les barèmes. Ce qui est en toile de fond dans les esprits, c’est la courbe de Gauss, posée comme phénomène naturel pour la distribution des résultats des élèves, au même titre que leur taille ou leur poids. Et d’ailleurs, si les résultats des élèves devaient effectivement se répartir de manière naturelle suivant cette courbe, pourquoi devrait-elle être centrée à 10 ? On confond alors la phase d’apprentissage et la phase d’évaluation. Il est normal que pendant la phase d’apprentissage les vitesses d’acquisition des élèves soient différentes. Mais pourquoi la phase d’évaluation devrait-elle discriminer les élèves de la même façon ? L’école des compagnons de Jésus est toujours présente dans les esprits.

Est-il normal que la distribution des notes soit normale ?3

Au début de l’année 1801, le premier janvier pour être exact, ce dont rêvent tous ses confrères arrive à un astronome italien : la découverte d’une nouvelle planète. Il peut observer ce nouvel astre qu’il baptise Ceres, dont l’existence avait déjà fait l’objet d’une hypothèse, durant une quarantaine de jours, avant que la lumière du soleil le rende inobservable. Et ses collègues essayent ensuite, mais en vain, de le localiser. La seule solution serait de prédire son emplacement en calculant son orbite à partir des premières mesures effectuées, mais aucun mathématicien de l’époque ne dispose des outils nécessaires. J.C.F. Gauss, qui est à la fois physicien, mathématicien et astronome, va proposer une loi, dite des moindres carrés, en s’appuyant sur le domaine naissant des probabilités. L’origine mathématique de ces dernières réside dans le calcul des chances. Dans une expérience aléatoire, c’est-à-dire dont on ne connaît pas le résultat, peut-on prédire ce qui relève du hasard, ou du moins s’approcher le plus possible d’une valeur « vraie » ? Lorsque l’on joue à pile ou face avec une pièce de monnaie, la première fois on a une chance sur deux pour que la pièce tombe sur l’une de ses deux faces. Lorsqu’on relance la pièce une nouvelle fois, on a une chance que la pièce tombe du côté pile, une chance pour qu’elle tombe deux fois de ce même côté, une chance pour qu’aux deux lancers, elle tombe sur le côté face (on n’a donc aucun côté pile). Si on la lance trois fois d’affilée, on a quatre possibilités : aucune face, un, deux, ou trois côtés face.

F signifie : ne tombe pas du côté pile B. Chaput 2013.

Figure 1 – Arbre des probabilités pour qu’une pièce tombe du côté face lors de plusieurs lancers.

Et si on la lance cinquante fois, la probabilité que la pièce ne tombe qu’une fois du côté pile sur les cinquante lancers est infime. Pour le sens commun, il va de soi que plus le nombre de lancers est important, plus on a de chances d’obtenir sensiblement le même nombre de pile ou de face. L’appel aux probabilités permet d’affiner cette intuition (après tout, il est toujours possible en théorie de n’obtenir que le côté pile au bout de mille lancers…).

En procédant à de nombreux lancers, on va obtenir la courbe et l’histogramme suivant :

Figure 2 – Histogramme.

Cette distribution des données, qui figure la loi normale, se retrouve dans la description de nombreux phénomènes naturels. Cette loi intervient dans l’étude de phénomènes quantitatifs aléatoires continus, et fréquents dans la nature. Il s’agit alors d’une loi de probabilité pour modéliser les phénomènes naturels. L’adjectif normal est utilisé, car cette loi est utilisée pour décrire et modéliser des situations statistiques aléatoires et naturelles, par exemple la distribution des tailles dans la population. Une variable suivra une loi normale si elle dépend d’un grand nombre de causes indépendantes, dont aucune n’est prépondérante, et dont les effets s’additionnent. Ainsi, concernant la taille d’un individu, de nombreux facteurs peuvent intervenir : l’hérédité, la santé, les conditions d’alimentation, etc. La température des êtres humains au repos, la taille des nouveau-nés, la force musculaire sont des variables physiques qui, lorsqu’on les mesure, ont tendance à se distribuer normalement. On l’utilise également dans d’autres domaines comme la fabrication industrielle. Par exemple, on n’obtient pas toujours des pièces parfaites à l’aide d’une machine-outil, et il y a nécessairement un certain nombre de pièces défectueuses qui iront au rebut. L’objectif est d’avoir le moins de pertes possible, et le réglage optimum de la machine est représenté par une courbe de Gauss :

Figure 3 – Pourcentage des pièces acceptables.

La partie grisée correspond aux réglages permettant d’obtenir des pièces acceptables, les deux parties blanches aux pièces parfaites ou au contraire défectueuses.

On dit aussi que la courbe de Gauss figure une « densité de probabilité ». Ce qui est remarquable, c’est que cette configuration se retrouve dans un grand nombre de phénomènes naturels lorsqu’ils sont déterminés par de multiples causes qu’on ne peut, au sens scientifique, contrôler. Elle n’est bien entendu pas systématique : l’éruption des volcans, la fréquence des tsunamis, les résultats d’une expérimentation dans laquelle on agit de manière différenciée sur les variables causales ne sont pas figurés par ce type de courbe.

Pour ce qui concerne l’évaluation scolaire, on a remarqué que, très souvent, les notes attribuées aux élèves d’une classe par un enseignant se répartissent de manière « gaussienne ». Est-ce à dire que ces notes estiment ou mesurent des résultats qui correspondent à une distribution naturelle des talents chez les élèves ? Si tel était le cas, en prenant les meilleurs élèves d’une classe et en les faisant évaluer par un autre enseignant on devrait obtenir une courbe en J, c’est-à-dire concentrant les résultats de l’évaluation sur les meilleures notes :

Figure 4 – Répartition théorique des résultats des meilleurs élèves d’une classe.

Ce cas de figure a fait l’objet d’une expérience en docimologie.

Dans le cadre des recherches en docimologie, l’expérience suivante a été mise en place : on fait corriger par plusieurs correcteurs un même lot de copies, et on aboutit en général à une distribution qui a la forme d’une courbe de Gauss. Puis, on extrait le quart des copies les plus faibles et le quart des copies les meilleures, qu’on réunit en un même ensemble, et qu’on fait à nouveau corriger par d’autres correcteurs. En théorie, la courbe obtenue devrait avoir deux « bosses », une figurant les mauvaises copies, une autre les meilleures.

Figure 5 – Bimodalité d’une distribution de notes.

En fait, on obtient de nouveau une courbe de Gauss avec un seul sommet, ce qui veut dire que ce sont les correcteurs qui ont recréé une courbe de Gauss, et que cette dernière ne représente en rien une distribution qui serait « naturelle » (Reiz, 2002). S’il est question de nature, il s’agit plutôt de la « tendance naturelle » chez beaucoup d’enseignants de produire des notes de façon gaussienne. On ne peut en aucun cas déduire que les compétences ou les savoirs se répartissent « naturellement » de manière gaussienne dans la population des élèves. De manière générale, les enseignants auraient tendance dans leur classe à mettre des notes, souvent de manière inconsciente, qui se répartissent selon la courbe de Gauss. Dans certains pays comme le Japon, les choses ont le mérite d’être claires : il est demandé aux correcteurs de « normaliser » la distribution des notes à l’aide d’une procédure statistique pour que cette distribution ait une forme gaussienne. Cette tendance est confirmée lorsqu’on compare les distributions des notes selon les niveaux de classe des élèves ou des établissements. On pourrait s’attendre là encore que la distribution des notes ait une forme différente suivant le niveau de la classe, avec une concentration d’un nombre d’élèves conséquent sur les valeurs basses ou les valeurs hautes. Or il n’en est rien. Là encore, et, quel que soit le niveau des classes concernées, on observe une distribution gaussienne.

Notation scolaire et tests psychologiques

La notation scolaire ne peut répondre aux mêmes critères indispensables à la construction d’un test psychologique ; ces derniers ne peuvent d’ailleurs être utilisés que par des psychologues attitrés (psychologues scolaires pour le premier degré, conseillers d’orientation psychologues pour le second degré). Un test psychologique est une situation standardisée dont l’objectif est d’évaluer les caractéristiques mentales ou comportementales d’une personne. La standardisation est indispensable pour permettre la comparaison des résultats d’un individu à ceux d’une population de référence. Trois qualités métriques doivent être respectées lors de sa construction : la fidélité, la sensibilité, et la validité. Par ce dernier critère, on s’assure que le test mesure bien ce qu’il est censé mesurer, par exemple en vérifiant sa valeur pronostique : les résultats à un test de logique passé en classe de troisième sont-ils corrélés avec la réussite en mathématiques en classe de seconde ? Lorsque le test est élaboré, on le fait passer à un échantillon le plus représentatif possible de la population à laquelle s’adresse le test. Et on vérifie que la distribution des résultats des différentes personnes constituant l’échantillon répond bien à la loi normale théorique qui est représentée par la courbe de Gauss. Mais, « il importe de remarquer que ces principes psychométriques ne sont qu’une spécification des principes généraux de mesure, communément appelés principes de “scalling” (échelonnement), qui visent à obtenir des échelles de mesure ayant le plus de propriétés métriques, c’est-à-dire dont les scores se prêtent au plus grand nombre d’opérations mathématiques possibles » (Trahan & Dassa, 1978, p. 75). Le point commun avec le mode de notation des enseignants est que le résultat d’un sujet ne prend sa valeur que par rapport aux résultats d’autres personnes, même si, dans le cas de la notation, ce rapport (le classement des élèves inauguré par les jésuites) est souvent implicite. Souvent, les tests psychologiques sont construits à partir de modèles théoriques : intelligence, motivation, aptitudes, etc. Mais ce n’est pas toujours le cas. « L’intelligence, c’est ce que mon test mesure », disait ironiquement A. Binet. Mais cette boutade n’était pas destinée à fuir un quelconque débat sur la nature de l’intelligence, et Binet, contrairement à une idée communément admise, ne parlait pas d’âge mental ou de quotient intellectuel. Son objectif était simplement d’aider à repérer les élèves qui pouvaient ou pas suivre une classe adaptée à leur âge.

Concernant l’utilisation des tests en éducation, on a coutume de distinguer la psychométrie et l’édumétrie. La psychométrie permet de classer les individus les uns par rapport aux autres, l’édumétrie évalue le progrès réalisé par un individu entre des étapes successives de son apprentissage. Lorsqu’il s’agit de mesurer des différences entre individus, le test doit maximiser la sensibilité aux différences entre individus. Les deux approches permettent de distinguer ce qui relève de la mesure des différences individuelles, et ce qui relève de la mesure des résultats de l’apprentissage. Prenons comme exemple le calcul d’une racine carrée. Dans un test construit dans une logique psychométrique, si cette performance est réussie par très peu de personnes, on ne la retiendra pas comme item, car ne permettant pas de mesurer les différences individuelles. Par contre, dans une optique édumétrique, et pour le même groupe d’élèves, on pourra la retenir pour évaluer en cours d’apprentissage si la compétence est en place.

Où est la norme ?

Que les enseignants aient tendance à ajuster la norme de leur évaluation suivant le niveau de leur classe, quoi de plus compréhensible ? Mais qu’est-ce qu’une norme ? Le terme est polysémique, et on relève parmi les différentes acceptions : ce qui doit être, admis par un jugement de valeur ; idéal, règle, modèle, loi, principe ; un état habituel des choses, un état ordinaire conforme à la majorité des cas ; une manière de faire et de se conformer socialement, sanctionnée par un système de référence ; ce qui rend plus pratique un procédé technique, un produit, en permettant de rationaliser la production de ce dernier par un standard. Trois dimensions se condensent dans la notion de norme : une dimension de valeur et d’idéal (ce qui doit être), une dimension technique (le gabarit, le standard), et plus simplement une description de l’existant le plus courant, le plus répandu.

En évaluation, deux significations du terme « norme » prédominent : « En tant qu’idéal ou modèle, à la fois qualitatif et quantitatif, la norme dit ce qui est attendu, ce qui est considéré comme bon, ce qui permet de juger un comportement. En tant qu’expression de ce qui se fait communément, elle caractérise une population définie » (Bonboir, 1985. p. 82). Une condition est nécessaire à ces deux significations. Procéder à une évaluation normative, par exemple pour vérifier ce qu’un élève a acquis, nécessite de disposer d’un référent externe, « déjà-là », permettant de vérifier un rapport de conformité. On distingue alors les épreuves d’évaluation de maîtrise et les épreuves normatives (dans le sens où il s’agit de comparer les résultats à ceux d’une population de référence).

Le résultat peut être codé de manière binaire (acquis/non acquis ; oui/non ; 1/0), en se référant à un seuil de performance attendu. Mais il peut être défini également par la comparaison à une population de référence, un système de classement, d’ordre, d’échelle. C’est le principe des tests normatifs et de l’utilisation des étalonnages. Étalonner des résultats, c’est déterminer des repères d’appréciation pour obtenir des normes de niveau (quartiles, déciles, centiles). Il y a deux types d’étalonnage : ceux utilisant le quantilage (égalité des effectifs dans chaque catégorie), et ceux qui utilisent les échelles normalisées. Dans ce cas, on ne cherche pas à ce que les effectifs soient égaux dans chaque catégorie, mais on fixera les limites de ces dernières de façon à ce qu’elles correspondent à une distribution normale, c’est-à-dire à une forme en courbe de Gauss.

Traiter des résultats à une épreuve de manière réfléchie pour qu’ils correspondent à une distribution qui permettra de situer une personne par rapport à une population de référence n’a rien d’illégitime, si ce traitement se fait avec les outils statistiques adéquats. De plus, l’intention discriminante (au sens de différencier des résultats) est clairement affichée et assumée dans la construction des tests psychologiques, il s’agit même d’un préalable méthodologique. Mais c’est très rarement le cas dans une procédure de notation effectuée par un enseignant. C’est un peu comme si les résultats obtenus par les élèves se distribuaient de manière gaussienne de façon « naturelle », sans qu’il s’agisse d’un choix de l’enseignant. Du coup, un implicite fonctionne : les notes évaluent les capacités des élèves, et ces dernières sont réparties selon des lois « naturelles »…

On peut y voir également une intention pédagogique, celle de ne pas décourager les élèves dans les classes dites faibles, et d’élever l’ambition de la cible à atteindre dans les classes dites fortes. Mais pourquoi faut-il alors que la figuration des résultats d’une classe soit calquée envers et contre tout sur la courbe de Gauss ? Comme si, à chaque fois, on avançait de manière implicite qu’il s’agit d’une distribution naturelle, et donc « normale », relevant de la nature des individus. Après tout, peut-on penser, n’est-ce pas ce que l’on peut observer dans la vie de tous les jours ? Beaucoup de gens « moyens », et peu de personnes très brillantes ou au contraire ayant peu de qualités. Et pourquoi les compétences et les savoirs ne seraient-ils pas distribués de manière naturelle comme la taille des individus ? Sauf que compétences et savoirs ne sont pas des phénomènes « naturels ».

L’approche fonctionnelle de l’évaluation

Au début des années 60, Lee J. Cronbach, un psychologue scolaire américain, pense que les sciences sociales peuvent servir les promoteurs de programmes sociaux. Il s’agit de fournir aux décisionnaires un maximum d’informations, leur permettant d’agir rationnellement, en évaluant les résultats des politiques et des programmes à caractère social. Les résultats de la recherche doivent pouvoir éclairer la décision politique, dans un souci de pragmatisme. Est posé le principe d’une conception de l’évaluation pouvant améliorer l’enseignement en aidant à déterminer les besoins des élèves et en facilitant la régulation administrative. L’anglais M. Scriven, mathématicien et docteur en philosophie, introduit pour la première fois en 1967 la différence entre évaluation formative et évaluation sommative. Par cette dernière, on peut apprécier les résultats et les effets d’un programme d’enseignement. L’évaluation formative doit, quant à elle, permettre l’élaboration de jugements en cours de route, ainsi que la modification éventuelle des actions qui ont été décidées en amont. On est là dans le principe du feed-back. Lorsque le terme d’évaluation formative est employé pour la première fois, il l’est dans la problématique inaugurée par Cronbach, à savoir l’évaluation de programmes. Mais sur quels fondements repose cette conception de la régulation et du feed-back ? Sur un modèle qui vient de la cybernétique, et qui plus tard inspirera l’analyse de systèmes.

Systèmes

Norbert Wiener utilise en 1950 le mot feed-back dans le premier ouvrage consacré à la cybernétique. Il le définit comme un processus permettant le contrôle d’un système (mécanique, physiologique, ou social) en l’informant des résultats de son action (Paquette, 1987). C’est donc une procédure de contrôle basée sur le fonctionnement réel d’un système. Mais qu’est-ce qu’un système ? C’est un ensemble de processus articulés par un ensemble d’instructions ; ensemble cohérent et souple, mais qui surtout possède un certain degré d’autonomie. Les systèmes les plus simples sont fermés, comme la machine de Watts. Mais ils peuvent être également plus ou moins ouverts, ce qui leur permet à la fois d’agir sur d’autres systèmes, et de rétroagir sur ces derniers. Ainsi entrent dans le système de la matière, de l’énergie et surtout, pour le domaine qui nous concerne, de l’information. On va alors parler de variables d’entrées, de flux d’entrée, d’input, etc. concernant l’amont du système, et de variables de sortie, de flux de sortie, d’output, d’extrants, concernant son aval. Un système est à la fois ouvert et fermé ; fermé, car il n’est perméable qu’à un certain type d’informations, ouvert, car un système complètement fermé serait comme une boîte noire dont rien n’entrerait ou ne sortirait. Ajoutons que les processus internes d’un système ne produisent pas seulement des flux de sortie qui vont vers son environnement extérieur, mais aussi des flux de sortie qui vont vers lui-même et sa propre organisation. C’est là que se situe le fameux « feed-back », c’est-à-dire la rétroaction. Les exemples les plus simples sont bien connus : le thermostat qui maintient une température confortable, la soupape d’un autocuiseur qui permet de dégager le trop-plein de vapeur risquant d’en saturer la production, etc. C’est également là que se situe le principe d’homéostasie, qui correspond à la capacité d’un système à maintenir l’équilibre de son milieu intérieur. Ces exemples illustrent l’existence de systèmes fermés sur eux-mêmes, autocontrôlant leur action, mais incapables de modifier leur propre finalité. Il va de soi que des systèmes plus complexes, particulièrement ceux en jeu dans les interactions humaines, ne peuvent se réguler de façon aussi mécanique, car ils demandent le traitement d’un grand nombre d’informations. On voit là la proximité entre le processus de rétroaction et le principe de l’évaluation formative : le traitement des informations en cours de route peut permettre d’augmenter ou de diminuer l’intensité de l’action, ou bien de modifier son orientation ; « Le feed-back peut alors être entrevu non seulement comme un mécanisme permettant le contrôle des actions en cours, mais comme la base fonctionnelle à partir de laquelle s’articulent nos facultés d’adaptation » (Lapierre, 1992). Deux notions vont être fondamentales : celle d’information, et celle de correction ou d’ajustement de l’action, ce qui implique adaptation et modulation. L’analyse des systèmes a représenté un domaine particulièrement fécond dans les années 70 et 80, et a été une source d’inspiration pour les travaux de penseurs comme Edgar Morin, Henri Atlan, Jean-Louis le Moigne, Yves Barel, etc. Pour l’instant, retenons que ce courant de pensée a été à l’origine des conceptions fonctionnelles de l’évaluation que nous allons présenter plus en détail.

D’abord appliqué à l’évaluation des programmes, le modèle de l’évaluation formative va être transposé par Joseph S. Bloom dans le domaine des apprentissages scolaires. Il va distinguer trois fonctions :

•une fonction de prévention des difficultés d’apprentissage (fonction diagnostique),

•une fonction de régulation des apprentissages (fonction formative),

•une fonction d’attestation sociale des acquis (fonction sommative).

L’évaluation diagnostique

En amont des apprentissages se situe l’évaluation diagnostique qui aide à définir le type de difficultés que peut rencontrer un élève. Elle a une fonction de prévention et doit permettre de prescrire des rythmes ou des modalités d’apprentissage adaptés. C’est en principe l’objectif des évaluations nationales pilotées en France par le ministère de l’Éducation.

L’évaluation des apprentissages en amont du dispositif d’enseignement peut également avoir une fonction pronostique. Émettre un pronostic, c’est élaborer une projection vers le futur, mais également faire l’hypothèse sur le résultat d’une action. La fonction pronostique est principalement à l’œuvre dans le processus des décisions d’orientation prises concernant les élèves ou les adultes. On utilise les résultats de l’évaluation afin de décider pour l’avenir. Ce qui exige la comparaison, l’estimation de l’adéquation entre deux images, deux représentations : celle des compétences évaluées chez une personne, et celle d’un modèle qui sert de référent. Il peut s’agir tout aussi bien des compétences attendues d’un élève de seconde, nécessaires pour un poste de travail particulier, ou bien conseillées pour aborder l’enseignement supérieur. Plus l’adéquation entre les deux images est précise, plus le pronostic sera fiable.

L’évaluation pronostique et l’orientation scolaire

En France, l’orientation scolaire a longtemps été fondée sur le score des résultats scolaires, particulièrement pour le palier constitué par la classe de troisième, et jusqu’aux années 90 par celui de la fin de cinquième. De manière générale, l’évaluation par les compétences est balbutiante dans l’enseignement secondaire, même si elle devrait prendre son envol grâce à la mise en place du socle commun de compétences et de connaissances. Malgré tout, la notation n’est pas la seule à jouer un rôle lors des prises de décisions, surtout si, comme pour l’évaluation des copies, on prend en compte tous les facteurs implicites qui peuvent peser. Ainsi, une étude réalisée en 2002 par Marie Duru-Bellat4, fait apparaître que, dans les critères de décision de passage en classe de quatrième, un quart revenait aux inégalités de réussite scolaire, un quart aux différences de politique d’orientation entre établissements, un quart aux différenciations sociales inscrites dans les vœux d’orientation, et un quart aux différenciations sociales inscrites dans les décisions d’orientation. Ces deux derniers critères concernent le poids de l’origine sociale des élèves dans les décisions d’orientation. Il est double. Un enseignant pourra être plus exigeant dans la décision d’orientation pour un élève d’origine modeste (qui, pense-t-on, n’est pas destiné, par « atavisme », à poursuivre des études longues), et pour ce même élève et sa famille peut exister un mécanisme d’autosélection : à réussite scolaire identique, certaines familles s’interdiront le choix de certaines filières, alors que d’autres au contraire les choisiront comme étant naturelles. Le niveau d’ambition est également plus faible chez les élèves qui ont redoublé. Or, pour la majorité des cas, les conseils de classe entérinent ce phénomène d’autosélection. Certains enseignants « poussent » les élèves qu’ils estiment avoir de bonnes chances de faire des études longues à revoir leurs ambitions à la hausse ; mais les enquêtes montrent que cette logique n’est pas dominante.

Le phénomène d’autosélection ainsi mis en évidence par les chercheurs a bien entendu rapport avec l’auto-évaluation et l’estime de soi. On ne répétera jamais assez combien l’évaluation scolaire influe sur les dynamiques identitaires des élèves. Elle entérine également l’orientation par l’échec, c’est-à-dire la décision subie. Malgré toutes les campagnes pour promouvoir l’enseignement professionnel, malgré la création des baccalauréats professionnels et du lycée des métiers, c’est encore trop souvent un cheminement « par défaut » qui est à l’origine de l’orientation des élèves vers la voie professionnelle.

Malgré tout, les études réalisées sur la fiabilité du jugement professoral montrent que ce dernier est souvent valide. Dans l’ensemble, le jugement des enseignants est « exact » en ce qui concerne la prédictivité de la réussite d’un élève à un test de connaissances. Certains enseignants sont conventionnels et autoritaires, d’autres plus réactifs, plus attentifs à la singularité des élèves, et le jugement de ces derniers s’avère d’une validité supérieure.

Pour autant, si le jugement des enseignants est globalement valide, il n’en est pas pour autant parfait. Il intègre des normes sociales ou des stéréotypes comme la politesse, le comportement général, quand ce n’est pas l’attractivité du physique. Deux questions peuvent se poser : pour pallier les incertitudes de la notation, devrait-on faire un usage raisonnable d’épreuves standardisées pour que les enseignants jugent des acquis de leurs élèves sur une base commune ? Peut-on intégrer dans les décisions d’orientation d’autres critères que le niveau des acquis scolaires ?

L’importance accordée à la notation n’est pas la même dans tous les pays d’Europe. Le Danemark et la Suisse ont en commun d’avoir fait de l’évaluation scolaire un enjeu prioritaire des changements nécessaires pour favoriser la réussite de tous leurs élèves. Pour ce qu’en France on appellerait l’école moyenne, l’évaluation formative, comme aide aux apprentissages, domine. La notation a été supprimée, ce qui pour la Suisse n’a pas été de soi, et des associations de parents d’élèves ont manifesté pour la réintroduction des notes dans l’enseignement primaire. Pour les décisions d’orientation, sont pris en compte des critères variés, dont les notes ne sont qu’un élément. Pour le Danemark, longtemps les élèves n’ont pas été notés. Leur niveau était estimé à partir d’un cahier de bord donnant une large place à l’auto-évaluation, ainsi qu’à une évaluation formative qui permettait de mettre en place des enseignements différenciés. Mais les enquêtes PISA de 2000 et de 2003 ont révélé un niveau des élèves danois qui ne correspondait pas à l’image que se faisait le pays des résultats de son système éducatif. Aussi a-t-on mis en place un livret de l’élève qui donne une importance accrue à l’évaluation sommative des compétences. Des évaluations sommatives régulières ont lieu, normées grâce à des épreuves nationales. À la fin du grade 9 (qui correspond à la fin de la scolarité obligatoire), les élèves se présentent à un examen final pour obtenir un certificat de fin d’études, qui permet aux élèves qui le souhaitent d’être orientés vers un lycée général. Les compétences sociales et les aptitudes personnelles sont prises en compte, et pour le livret scolaire, la part dévolue à l’auto-évaluation reste conséquente. Ailleurs en Europe, le système scolaire finlandais aussi bien que celui du Danemark se concentrent sur les processus d’apprentissage des élèves plutôt que sur la comparaison de leur niveau scolaire.

C’est bien là que réside la différence principale avec le système scolaire français. Certes, pour le Danemark, l’évaluation sommative est identifiée dans son rapport à l’orientation. Mais ce système accorde une place beaucoup plus grande à l’évaluation des apprentissages (et pas seulement des résultats), ainsi qu’aux compétences extrascolaires.

Les tests psychologiques comme outils d’évaluation prédictive

À la fin du XIXe siècle, l’école a constitué pour les psychologues un terrain d’études leur permettant de tester leurs hypothèses. Il fallait également résoudre le problème des élèves jugés inaptes à suivre un enseignement traditionnel. Aux États-Unis, la psychologie différentielle va trouver un terrain d’application dans trois domaines : l’armée, l’industrie, et l’école. Les tests sont utilisés massivement pour la constitution du corps expéditionnaire en 1917. Devant la nécessité d’examiner rapidement un grand nombre d’appelés, l’armée fait appel à des psychologues qui vont utiliser des tests collectifs, et cet usage va ensuite se répandre très largement dans les écoles. Les psychologues du travail font également appel à l’utilisation de tests. L’idée que les aptitudes humaines sont déterminées fait écho au développement du taylorisme. En 1911 est mise au point une épreuve de sélection des ouvriers mesurant leur temps de réaction dans une usine de construction automobile. Et, dès 1908, Alfred Binet (célèbre pour sa formule : « L’intelligence, c’est ce que mon test mesure ») écrit qu’il faut, à l’école, « avertir les enfants des professions pour lesquelles ils sont les plus aptes, et en diminuant ainsi, par cette prophylaxie professionnelle, le nombre de sujets mal adaptés, qui deviennent nécessairement des déclassés, des malheureux ou des insurgés » (cité par Reuchlin, 2006). Les tests construits à partir du début des années 30 le sont pour répondre aux besoins d’une orientation professionnelle, qui se fonde sur l’hypothèse du développement inégal des aptitudes chez les individus. L’orientation professionnelle est définie comme l’ensemble des actions qui précèdent le placement des adolescents dans le commerce et dans l’industrie, en fait une évaluation qui a pour but de révéler leurs aptitudes physiques, morales, et intellectuelles. Longtemps, les conseillers d’orientation garderont une image de « testeur », et, jusqu’au milieu des années 80, la pratique des tests collectifs est massivement répandue dans les collèges. Des épreuves de niveau verbal, logique et spatial sont proposées aux élèves des classes de 6e et de 3e. L’exploitation des résultats permet aux conseillers de pondérer les avis des enseignants sur le niveau de leurs élèves au moment des prises de décision. Progressivement, ces épreuves seront abandonnées, suivant en cela les changements profonds du système éducatif et le gommage progressif de sa filiarisation. Une nouvelle philosophie voit le jour : la décision n’est plus prise « sur » l’élève en tant qu’objet, mais « avec » lui comme sujet. Une voie royale vers l’évaluation formative.

L’évaluation sommative

Cette fonction de l’évaluation est celle avec laquelle, traditionnellement, les enseignants sont le plus à l’aise. Il s’agit d’établir un score qui mesure une somme de connaissances et de savoirs. Moyenne trimestrielle, mise au point d’épreuves à un examen, concours (épreuves écrites ou orales…) : les questions de la fiabilité et de la justesse se posent. Si l’apprentissage porte sur un objectif de maîtrise, l’évaluation sommative peut être critériée : il s’agit de définir à partir de quels critères on jugera la performance.

Cependant, l’évaluation sommative est souvent normée, ce qui veut dire que l’on compare la performance d’un individu à celle d’un groupe de référence. On établit la distribution des résultats obtenus et on apprécie chaque score d’après sa position dans la distribution d’ensemble. L’évaluation normée ne renseigne pas de manière absolue sur la maîtrise d’un certain nombre de compétences ou de savoirs, mais sur le rang qu’occupe la personne par rapport à une population de référence. C’est le principe majeur qui a été à l’origine de la construction des tests psychologiques. Lorsqu’on étalonne un test, on distribue les résultats de façon normée, ce qui permet d’attribuer une classe à un individu, comparativement à une population d’origine.

Par exemple, dans le cadre du protocole de Bologne réglementant la circulation des étudiants en Europe, s’est posée la question de l’objectivation de leurs acquis. Établir une liste de critères qui auraient fait accord entre les différents pays pour évaluer les étudiants en fonction de ces critères aurait demandé un travail énorme. C’est le principe d’une évaluation normative qui a été retenu, et ce qui fait office de critère, c’est la comparaison des étudiants à la population de leur université d’origine. Ajoutons que l’évaluation sommative peut être certificative, c’est-à-dire qu’elle permet d’attribuer un titre socialement reconnu.

L’évaluation formative

Elle a donc pour fonction la régulation des apprentissages à l’intérieur du processus de l’enseignement ou de la formation. À partir du traitement des difficultés et des obstacles rencontrés par l’élève ou la personne formée, on modifie le parcours ou le rythme du trajet de la formation. Une définition exhaustive en est donnée par G. Scallon (2000, p. 20) :

« Processus d’évaluation continue ayant pour objectif d’assurer la progression des individus engagés dans une démarche d’apprentissage ou de formation, selon deux voies possibles : soit par des modifications de la situation ou du contexte pédagogique, soit en offrant à chaque individu l’aide dont il a besoin pour progresser, et ce, dans chacun des cas, pour apporter, s’il y a lieu, des améliorations ou des correctifs appropriés. La “décision action”, c’est-à-dire la régulation, a pour objet soit la situation d’apprentissage, soit l’individu lui-même ».

Cette définition met en lumière deux modalités de l’évaluation formative. Une première s’inscrit dans une perspective néo-behaviouriste. On s’intéresse exclusivement aux résultats des élèves pour réguler le processus d’enseignement, et on ne s’intéresse pas au contenu de la « boîte noire » que représente le fonctionnement cognitif de l’apprenant. Est-ce que l’élève maîtrise les prérequis nécessaires à l’apprentissage ? La programmation des activités est-elle adéquate, dispose-t-il d’un temps suffisant ? On peut lui proposer des retours en arrière, des exercices supplémentaires, ou même une progression des tâches plus fine. C’était déjà le principe de l’enseignement programmé, qui existait avant la révolution informatique, et selon lequel on découpait le programme d’enseignement sous la forme d’un algorithme, avec des boucles et des retours en arrière, et dont on devait suivre la progression suivant ses résultats. C’est également, dans sa formule la plus basique, le principe des groupes niveaux-matière, imaginé dans le rapport Legrand sur la réforme des collèges, selon lequel on regroupait les élèves par type de difficultés rencontrées, avec possibilité de passer d’un groupe à l’autre suivant les progrès de l’apprentissage.

La seconde modalité s’inscrit dans une perspective cognitiviste : on s’intéresse plus au processus d’apprentissage qu’à ses produits, la prise d’information porte sur la façon de procéder de l’élève dont l’enseignant cherche à comprendre le fonctionnement cognitif. Cette démarche implique la mise en œuvre d’un dispositif de formation qui permet une observation de l’élève pendant qu’il effectue une tâche, la prise en compte de ses verbalisations, et de la façon dont il rationalise la façon dont il procède.

Quels types de régulation peuvent être intégrés dans le processus d’apprentissage ? Linda Allal (1991) en distingue trois :

•la régulation interactive : l’adaptation de l’activité de l’élève ou de la personne formée est une conséquence immédiate de ses interactions avec l’enseignant, ses pairs, ou le matériel didactique. Ce sont les interventions de l’enseignant en cours d’activité, les échanges entre élèves ou personnes formées pendant l’activité, ou les possibilités de feed-back intégrées dans le matériel didactique qui en constituent les principes ;

•la régulation rétroactive : elle permet de mettre en place des activités de remédiation aidant la personne à surmonter les difficultés ou à corriger les erreurs relevées lors de l’évaluation ; cela implique un retour à des objectifs non maîtrisés ou à des tâches non réussies lors d’une première étape d’apprentissage ou de formation ;

•la régulation proactive qui est utilisée pour la prévision d’activités de formation futures, orientées davantage vers la consolidation et l’approfondissement des compétences des personnes (Allal, 1991).

L’évaluation formatrice

Il s’agit d’une notion qui s’appuie sur les travaux de Galperine, un psychologue soviétique, concernant les phases de l’action et la construction des concepts, et qui a été opérationnalisée par une équipe de l’université d’Aix-Marseille conduite par G. Nunziatti (1990).

L’évaluation formatrice se centre sur la régulation assurée par l’élève lui-même, plus que sur les stratégies pédagogiques de l’enseignant. Il s’agit de favoriser chez les élèves l’appropriation des critères d’évaluation définis par les enseignants afin de les aider à l’autogestion de leurs erreurs. La phase essentielle est l’appropriation par l’élève des objectifs et des critères définissant la tâche, c’est-à-dire les mécanismes cognitifs intervenant au cours de l’activité. Sont différenciés les critères de réussite de l’apprentissage (le produit), et les critères du processus (comment on s’y prend). Cinq phases de l’action sont retenues comme fondamentales :