Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Une méthode et des outils pour aider à orienter.
Tout au long de notre vie, nous devons faire des choix qui peuvent avoir un impact important sur le reste de notre vie. Ils émanent tantôt d’une volonté personnelle de changer, tantôt de circonstances qui ne sont pas toujours
entre nos mains. Face aux innombrables possibilités qui s’offrent à nous, il n’est pas toujours évident de savoir quel chemin emprunter, celui qui respectera à la fois nos désirs, nos capacités et notre personnalité.
Conscients de ce besoin, de plus en plus de thérapeutes et coachs proposent leurs services aux personnes qui souhaitent se réorienter. Or, jusqu’à présent, aucun ouvrage ne traitait de manière globale et complète les outils et méthodes utilisables dans le champ de l’orientation, que ce soit au niveau scolaire ou professionnel.
Un guide pratique, destiné aux coaches et aux professionnels de l'orientation, désireux de parfaire leurs connaissances par l'apport de cas théoriques et pratiques.
EXTRAIT
Dans un contexte de mutation rapide du monde du travail et de la société, de complexification des parcours professionnels et d’imprévisibilité de l’avenir, développer chez chaque personne les compétences à s’orienter est devenu un objectif prioritaire des programmes d’éducation. Mais de quoi parle-t-on ? L’Organisation de Coopération et de Développement économique (OCDE) en propose la définition suivante : « D’une manière générale, il s’agit d’une capacité à faire face aux situations complexes, à mobiliser différents types de ressources psychosociales (savoir-faire et attitudes) de manière créative dans un contexte particulier » (OCDE, 2003, cité par Network for Innovation in Career Guidance & Counselling in Europe, Nice, 2012, p. 36). Cette définition fournit un cadre général. Elle est cependant peu précise et peu opérationnelle. Bien qu’il soit probablement illusoire d’établir une liste exhaustive des compétences à s’orienter, sur la base d’une exploration de la littérature en psychologie de l’orientation, nous nous attacherons, dans ce chapitre, à les définir plus précisément et à identifier différentes méthodes disponibles pour les évaluer. Cette exploration de la littérature nous amènera à retenir trois grands registres de compétences à s’orienter : la maturité vocationnelle, la prise de décision et l’adaptabilité de carrière.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 674
Veröffentlichungsjahr: 2018
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Cet ouvrage est dédié à la mémoire de Pierre Vrignaud.
Le taux de 60 % d’échec dès la première année d’études universitaires a fait les titres des journaux français en 2017. Ce chiffre-choc recouvre une réalité complexe. Seule une partie des étudiants qui ne terminent pas avec fruit la première année ont présenté l’ensemble des examens sans obtenir des notes suffisantes. Nombreux sont ceux qui ne présentent aucun examen et abandonnent en cours d’année par manque d’intérêt et de motivation ou suite à des difficultés d’apprentissage (faiblesse des connaissances de base, problèmes de méthode de travail, etc.). Un nombre significatif d’étudiants entrant à l’université aurait sans doute dû faire d’autres choix de formation, plus en accord avec leurs compétences et leurs besoins. Pour éviter le gâchis humain et social de l’échec et de l’abandon, une meilleure orientation des jeunes est, d’évidence, nécessaire. Mais l’orientation ne concerne pas que les jeunes en formation initiale. Elle touche de plus en plus d’adultes en reprise d’études. Déçus par leur métier ou contraints par les difficultés économiques, ces adultes s’interrogent sur les formations les mieux à même de leur donner accès à une activité professionnelle plus en phase avec leurs aspirations.
Créé en 1928 par Henri Piéron, l’Institut national d’orientation professionnelle, qui deviendra l’INETOP en 1939, a joué un rôle de pionnier dans la formation des conseillers en orientation et des psychologues de l’orientation, et dans la recherche sur les modèles et les outils d’aide à l’orientation. Aujourd’hui encore, l’INETOP est, sous la houlette de son directeur Even Loarer, une référence incontournable dans le domaine de l’orientation en France et dans le monde. La quasi-totalité des auteurs qui ont contribué au présent ouvrage sont, soit des enseignants et des chercheurs de l’INETOP, soit y ont été formés. Les compétences scientifiques des auteurs font de cet ouvrage une référence dans l’édition française.
Mais sa valeur n’est pas seulement due à l’expertise de ses auteurs. Elle tient aussi au point de vue adopté sur la démarche d’évaluation, lequel se reflète dans l’organisation du livre. Philippe Chartier, Katia Terriot et Pierre Vrignaud, qui sont les chevilles ouvrières du livre, défendent une approche globale de la personne en demande de conseils d’orientation. Ils soulignent combien il est important, dans le cadre de l’évaluation, de prendre en compte les différentes facettes de la personne pour mieux la comprendre et l’aider. Pour chaque facette de l’individu, un chapitre lui est consacré qui en présente les modèles théoriques et les principaux outils d’évaluation. Au travers des différents chapitres, le lecteur peut ainsi découvrir une synthèse des connaissances actuelles sur l’évaluation des intérêts, des capacités cognitives, de la personnalité, de la conation et des sentiments d’efficacité personnelle. Le huitième chapitre, consacré à la communication des résultats, est particulièrement important, car il met l’accent sur l’intégration des informations récoltées durant le processus d’évaluation en un tout cohérent et intelligible par la personne évaluée. L’évaluation n’est pas une fin en soi. Son utilité n’apparaît vraiment qu’au moment où le praticien traduit les informations techniques issues des tests et des questionnaires en un discours compréhensible par la personne évaluée, que cette dernière peut alors intégrer et faire sienne. L’adhésion de la personne aux conclusions et aux recommandations est la condition sine qua nond’efficacité de la procédure d’évaluation. Sans compréhension ni adhésion, l’évaluation reste un acte technique dispendieux et sans conséquence.
Rigoureux et très complet, cet ouvrage est la boîte à outils qui devrait accompagner tous les professionnels de l’orientation. Ces derniers y trouveront des informations techniques, des suggestions et des règles de bonne pratique pour l’évaluation des personnes en demande de conseils d’orientation.
Jacques Grégoire Université de Louvain, Belgique
Par P. Chartier et K Terriot
La première question que l’on peut se poser devant cet ouvrage est la suivante : pourquoi un livre dans le domaine de l’évaluation en orientation ?
S’il existe bien des publications spécifiques concernant l’évaluation de certaines caractéristiques personnelles comme celle déjà ancienne mais toujours pertinente de Vrignaud et Bernaud (2005) sur les intérêts professionnels, il n’existe pas, à notre connaissance, et en langue française, d’ouvrage qui intègre une présentation de l’ensemble des dimensions pouvant être prises en compte dans une pratique de conseil en orientation : les intérêts, les capacités cognitives, la personnalité, les sentiments d’efficacité personnelles, etc.
De plus, l’un des objectifs principaux des auteurs est d’articuler connaissances théoriques et propositions pratiques, en dressant un panorama des principaux outils et méthodologies disponibles en langue française, ce qui n’avait jamais été réalisé. L’approche se veut donc pédagogique et concrète en illustrant, autant que faire se peut, les notions et concepts abordés par des illustrations d’outils ou de dispositifs d’évaluation utilisables par le.la psychologue/praticien.ne.
Dans une période où les pratiques de bilan, aussi bien à destination des publics scolaires qu’auprès des adultes, se développent (Aubret & Blanchard, 2010), un tel ouvrage répond à une réelle demande des praticien.ne.s.
Ce livre s’adresse principalement aux praticien.ne.s de l’évaluation en orientation (psychologue ou professionnel.le ayant reçu une formation spécifique) ainsi qu’aux étudiant.e.s qui se destinent à exercer des pratiques professionnelles en orientation et accompagnement. Il intéressera également les enseignant.e.s et chercheur.e.s du domaine. Enfin, il pourra aussi éveiller l’intérêt de toute personne souhaitant découvrir ce domaine.
Si, historiquement, l’utilisation des tests en orientation se situe dans une approche adéquationniste (Guichard & Huteau, 2006), celle que nous développons dans ce livre est bien différente et peut se placer dans l’approche actuelle du counseling de carrière qui articule une approche psychométrique classique (par l’utilisation de tests objectifs) avec une approche plus clinique cherchant à identifier la singularité de chaque personne. Les auteurs de cet ouvrage se retrouvent dans la conception de Guédon, Savard, Le Corff et Yergeau (2011) pour qui, dans une telle démarche de conseil en orientation qui regroupe un conseiller.ère et un.e client.e (pour reprendre les dénominations fréquemment utilisées au Québec1), « les tests peuvent être d’une grande utilité dans cette relation afin de favoriser l’exploration et la compréhension de soi, mises au service d’une décision éclairée ou d’actions significatives » (4e de couverture). Dans cette approche, toute évaluation repose au préalable sur l’élaboration d’une alliance de travail qui déterminera le cadre de l’intervention (Olry-Louis, Guillon & Loarer, 2013).
Autrement dit, les tests et questionnaires présentés ici sont utilisés, bien entendu pour calculer des scores et permettre d’émettre des hypothèses et inférences, mais également, et sans doute de plus en plus, comme un dispositif de réflexion sur soi, de développement personnel. D’ailleurs, on parle maintenant plutôt de communication des résultats et non de restitution (voir sur ce point le chapitre VIII) afin de mettre l’accent sur ces (nouveaux ?) objectifs.
Les choix professionnels sont influencés par les traits de personnalité, les capacités cognitives, la motivation, les intérêts, l’environnement (familial, social, le marché du travail, etc.), l’estime de soi, le sentiment d’efficacité personnelle… autant de dimensions qui sont proposées dans cet ouvrage.
Chacune d’entre elles est présentée séparément dans le cadre d’un chapitre spécifique pour faciliter la lecture mais notre approche s’inscrit bien dans une conception globale de la personne. Ces dimensions psychologiques sont évidemment en interaction et articulées les unes aux autres. C’est pourquoi nous défendons une évaluation globale qui ne peut se réduire à l’étude d’une seule facette, isolée des autres. Un bilan d’orientation se doit d’être complexe à l’image de la complexité de la personne évaluée.
Par ailleurs, plusieurs études scientifiques (voir, par exemple, Bernaud, 1998, 2000) montrent bien que ces dimensions ne se recouvrent pas totalement, ce qui justifie le fait de les utiliser conjointement dans le cadre d’un bilan d’orientation. Par exemple, les aptitudes et intérêts entretiennent des relations faibles voire nulles. Les aptitudes sont des mesures de performance qui visent à prédire l’adaptation à un contexte de formation ou de travail alors que les intérêts visent à prédire la satisfaction dans un environnement académique ou professionnel.
Le.la lecteur.trice peut lire cet ouvrage dans l’ordre présenté mais peut également commencer par le chapitre de son choix car ils sont indépendants les uns des autres. Ainsi, l’ordre proposé n’est pas forcément l’ordre de lecture imposé, ni hiérarchisé selon l’importance de la dimension étudiée. Pour l’aider dans sa lecture, il.elle peut consulter le petit résumé qui se trouve au début de chaque chapitre et qui présente une synthèse des éléments qui seront exposés.
Dans une pratique d’évaluation, le.la praticien.ne doit maîtriser un certain nombre de connaissances et de compétences. Celles relatives à la méthodologie des évaluations (tests et questionnaires) sont l’objet du premier chapitre. Après une présentation des qualités métriques que doit présenter tout dispositif de mesure (sensibilité, fidélité, validité, etc.), nous aborderons la problématique des tests informatisés et/ou à distance avant de proposer quelques pistes de développement dans le domaine de l’orientation et du conseil. Enfin, nous aborderons une question cruciale qui est celle de la formation nécessaire pour utiliser les tests afin de développer les compétences garantissant un bon usage des outils d’évaluation.
Le chapitre II aborde les compétences à s’orienter. Après avoir proposé différentes approches théoriques sur cette notion bien complexe, ce chapitre présente des outils d’évaluation relatifs à la prise de décision de carrière tant chez les jeunes que chez les adultes, outils élaborés à partir de modèles théoriques ou construits de manière empirique afin de repérer les sources de l’indécision ou l’origine des difficultés décisionnelles ou d’adaptation de carrière. Les modèles et les instruments présentés dans ce chapitre seront utiles pour guider les investigations lors d’un entretien de conseil ou d’un bilan d’orientation ou encore pour situer les aspects à développer chez les participant.e.s dans le cadre de sessions éducatives.
Le domaine des intérêts professionnels est probablement le secteur le plus fécond quant à l’élaboration de dispositifs d’évaluation. C’est l’objet du chapitre III. Une première partie de celui-ci, plus théorique, aborde les différentes approches conceptuelles avant de présenter, dans une seconde partie, les différents outils d’évaluation actuellement diffusés, en axant principalement sur les spécificités, points forts et points faibles de chacun.
Le chapitre IV est consacré à l’évaluation des capacités cognitives (« l’intelligence »2). Dans le même esprit que le chapitre précédent, après une présentation de différents modèles théoriques, nous proposerons un panorama des principaux tests disponibles dans le monde francophone et utilisables dans le domaine du conseil en orientation : les échelles d’intelligence, les épreuves de facteur g, les batteries d’aptitudes, etc.
Dans la dernière partie de ce chapitre, le.la lecteur.rice trouvera quelques pistes récentes de développement concernant les méthodologies d’évaluation des capacités cognitives : la mesure d’un potentiel d’apprentissage, l’analyse des stratégies de résolution ou encore l’analyse des erreurs.
Après les intérêts et les capacités cognitives, une autre dimension souvent prise en compte concerne la personnalité : c’est l’objet du chapitre V. Du fait des conceptions multiples dans ce domaine, l’évaluation de la personnalité est aussi plurielle et fait l’objet de débats scientifiques intenses. Ce chapitre est centré plus spécifiquement sur les apports de l’évaluation des traits de personnalité dans le champ de l’orientation tout au long de la vie. Une discussion sera présentée autour de la nature des mesures : les mesures auto-évaluées, hétéro-évaluées, projectives, implicites, comportementales, etc. Nous analyserons les avantages et inconvénients de chaque approche au regard des caractéristiques du public et du contexte dans lequel l’évaluation se déroule.
Le chapitre suivant, chapitre VI, est consacré au domaine dit conatif (motivation, affectivité, anxiété, attachement, soi, identité, estime de soi, autodétermination). Celui-ci présente les principales dimensions psychologiques qui ne relèvent pas du fonctionnement cognitif mais qui s’avèrent des supports de ce dernier : « le soi » relatif à l’identité et à la représentation que la personne se fait d’elle-même, « l’estime de soi » relative à la valeur qu’elle attribue à cette représentation, « l’autodétermination » relative à la motivation à l’action, « l’anxiété » présentée comme illustration de l’affectivité et enfin « l’attachement » qui est à la source de ces liens affectifs. Des exemples d’épreuves permettront d’illustrer ces différentes notions.
La notion de sentiment d’efficacité personnelle (SEP), développée par Bandura, est souvent bien connue par les praticien.ne.s de l’orientation mais les possibilités de son utilisation dans une pratique de conseil l’est peut-être moins. Le chapitre VII propose une présentation des principaux aspects de cette notion et de ses applications, ainsi que les principes d’élaboration de questionnaires visant à son évaluation. En effet, il est nécessaire de construire des outils d’évaluation adaptés au domaine précis dans le cadre duquel on cherche à évaluer des croyances d’auto-efficacité. Nous présenterons quelques recommandations concernant la construction d’échelles d’évaluation des SEP ainsi que des procédures visant à contrôler la validité de ces échelles avant d’illustrer la démarche par la présentation d’un dispositif utilisé auprès de collégiens français.
Le chapitre VIII est consacré à une étape importante dans les pratiques actuelles de conseil en orientation, celle relative à la restitution et/ou la communication des résultats des évaluations. Comment est-on passé de la notion de restitution à celle de communication des résultats ? Quels sont les processus qui entrent en jeu dans cette étape de l’évaluation ? Qu’est-ce que cela implique ? De manière plus concrète, comment mener ce type d’entretien ? Autant de questions sur lesquelles le chapitre VIII propose des pistes de réponse, aussi bien dans le cadre d’une communication orale que dans le cadre d’un document écrit. Sera aussi abordé dans ce chapitre le droit de la personne au respect de sa vie privée en lien avec le Code de déontologie du.de la psychologue.
Pour terminer, le chapitre IX a pour objectif d’illustrer, par des exemples concrets, des pratiques d’évaluation auprès de différents types de publics : scolaire, adulte, personnes handicapées ou encore personnes incarcérées. Autour de la question fondamentale qui est celle de l’adaptation des pratiques aux caractéristiques des personnes et du contexte, ce chapitre vise à montrer l’articulation des différentes variables présentées dans les chapitres précédents et l’intérêt de leur évaluation dans une pratique de conseil et d’accompagnement en orientation. Il permet de boucler notre ouvrage et offrira au.à la lecteur.rice une vision globale de ce que peut être une pratique de conseil en orientation qui articule, comme nous l’avons signalé au début de cette introduction, une approche clinique compréhensive avec une approche psychométrique standardisée.
Au final, rappelons que l’objectif principal de notre propos est bien de fournir aux praticien.ne.s des repères théoriques pour les grands domaines relatifs aux variables agissant dans les choix d’orientation ainsi que des présentations d’épreuves utilisables, en langue française, afin qu’il.elle.s puissent choisir l’outil le plus adapté en fonction des caractéristiques de la personne (âge, niveau de compréhension, problématique, etc.) et celles relatives au test (qualités psychométriques par exemple).
Enfin, nous terminerons cette introduction en précisant que le.la lecteur.rice trouvera sur le site des éditions Mardaga des ressources complémentaires et des liens utiles, dont celui du site OPPIO (Observatoire des politiques et des pratiques pour l’innovation en orientation) de l’INETOP (Institut National d’Études du travail), lui permettant de compléter les thématiques et outils qu’il a trouvé dans ce livre.
Il s’agit d’un ouvrage collectif, rédigé par des membres du groupe GEP (Groupe sur l’Évaluation des Personnes) de l’INETOP qui réunit enseignant.e.s et praticien.ne.s s’intéressant à la problématique de l’évaluation en orientation.
Il.elle.s remercient des collègues ayant participé à ce projet collectif bien que n’ayant pas pu contribuer à la rédaction : Lin Lhotellier et Laurence Thiénot.
Enfin, nous remercions le professeur Jacques Grégoire qui a accepté de rédiger la préface de notre ouvrage.
Hana Barbot est psychologue, conseillère d’orientation, directrice de CIO, responsable du groupe « Orientation et Handicap » de l’académie de Versailles de 2002 à 2012, membre du Groupe d’Évaluation des Personnes de l’INETOP-Cnam.
Serge Blanchard, a exercé à l’INETOP-Cnam les fonctions de formateur de 1978 à 1990 puis de chercheur de 1990 à 2003 et de rédacteur en chef de la revue L’Orientation Scolaire et Professionnelle de 1991 à 2000. Actuellement retraité, il est membre du Centre de recherche sur le travail et le développement (CRTD) du Cnam (EA4132), équipe de psychologie de l’orientation.
Brigitte Bourcier a été conseillère d’orientation-psychologue pour le secondaire et l’enseignement supérieur pendant de nombreuses années, actuellement chargée d’enseignement et de recherche au Cnam (Conservatoire National des Arts et Métiers) pour l’INETOP. Elle y enseigne l’approche clinique de l’orientation ainsi que l’entretien de conseil et anime des analyses de pratiques avec des professionnel.le.s de l’orientation.
Philippe Chartier est maître de conférences en psychologie de l’orientation au Cnam/INETOP. Il est rédacteur en chef de la revue L’Orientation Scolaire et Professionnelle. Chercheur au CRTD (Centre de Recherche sur le Travail et le Développement), il travaille principalement sur la méthodologie de l’évaluation, l’élaboration et l’utilisation de tests et questionnaires. Il est l’auteur du test de raisonnement RCC et coordonne le groupe GEP de l’INETOP. Il est l’un des coordinateurs de cet ouvrage.
Valérie Cohen-Scali est professeure en psychologie de l’orientation et du travail au Cnam. Elle est chercheure au CRTD, responsable du Master (recherche) de psychologie du travail et des transitions du Cnam et directrice adjointe de la revue L’Orientation Scolaire et Professionnelle. Elle est membre du comité scientifique du Programme européen de doctorat en orientation (ECADOC) et membre de la chaire UNESCO en Orientation tout au long de la vie. Ses recherches actuelles concernent la construction de soi dans les périodes de transition, les représentations du travail des jeunes dans diverses situations d’emploi, les réorientations vers les organisations de l’Économie Sociale et Solidaire.
Odile Dosnon a longtemps travaillé au service de recherches de l’INETOP. Elle y conduisait des recherches en psychologie différentielle portant notamment sur la prise de décision ainsi que sur leurs applications au champ de l’orientation. Elle a dirigé un temps l’OPPIO. Elle est à présent membre du GEP de l’INETOP et membre associé de l’équipe psychologie de l’orientation tout au long de la vie du CRTD.
Olivier Dulu est docteur en psychologie, enseignant à l’Université de Lille 3 et à Paris 5. Il est également chercheur associé au laboratoire du Centre de Recherche pour le Travail et le Développement et praticien dans un centre de bilan de compétences.
Monique Garnier est psychologue au sein du Service d’Évaluation en Psychopathologie du Travail de l’ESAT VIALA–BASTILLE à la SPASM et professeure des Universités associée au Conservatoire National des Arts et Métiers–INETOP. Ses thèmes de recherche développés sont la modélisation des dispositifs d’accompagnement en orientation professionnelle des adultes ainsi que l’évaluation cognitive et l’accompagnement à l’élaboration du projet professionnel des travailleurs affectés de troubles psychiques.
Noëlle Lallemand est ingénieure d’études statisticienne à l’INETOP au Cnam dans l’équipe de recherche en orientation tout au long de la vie du CRTD. Elle participe aux travaux du groupe GEP et de l’OPPIO dans les domaines de la psychométrie et de l’analyse des données.
Carine Lemarchand est psychologue au Centre Pénitentiaire de Fresnes. Ses thèmes d’enseignement et de recherche sont le bilan de compétences, l’orientation, la réinsertion dans le cadre carcéral et la criminologie.
Even Loarer, docteur en psychologie, est professeur titulaire de la Chaire de Psychologie de l’Orientation du CNAM, Conservatoire National des Arts et Métiers (France). Il est directeur de l’INETOP et membre du Centre de recherche sur le travail et le développement (CRTD) du Cnam (EA4132). Il est également représentant de la Société française de Psychologie (SFP) et de la Fédération française des psychologues et de psychologie (FFPP) à la Commission Internationale des Tests. Ses travaux de recherche portent sur les thèmes suivants : l’orientation tout au long de la vie, la mobilité professionnelle, les méthodes d’évaluation et de développement de l’expérience et des compétences.
Joëlle Mezza est psychologue de l’Éducation nationale au sein du RHO (réseau handicap orientation) à Paris. Docteure en psychologie de l’orientation, elle a soutenu sa thèse au Cnam en 2014 sur le thème de l’élaboration du projet professionnel des personnes atteintes de maladies chroniques. Elle a exercé durant neuf ans en tant que chargée d’enseignement et de recherche à l’INETOP-Cnam.
Rodrigue Ozenne est psychologue de l’Éducation nationale et formateur. Il travaille au CIO de Compiègne et auprès du SAIO du Rectorat de l’académie d’Amiens. Ses centres d’intérêt sont l’évaluation psychologique des personnes, la communication des résultats, la division sexuée de l’orientation et les nouvelles technologies dans le conseil en orientation.
Thi-Van Patillon est titulaire d’un DESS de Psychologie du Travail à l’Université René-Descartes (Paris V), d’un Diplôme d’État de Conseiller d’Orientation-Psychologue (DECOP) et d’un Doctorat en Psychologie, spécialisé dans le domaine de la créativité appliquée à l’Orientation (Cnam-Paris). Elle a acquis une expérience de 15 ans en dans le domaine du conseil et d’accompagnement des publics jeunes et adultes, des bilans de compétences et des bilans d’orientation, dans les secteurs privé et public. Depuis 2008, elle assure, à temps plein, la fonction de chargée d’enseignement et de recherche au sein du Cnam-INETOP.
Laurent Sovet est maître de conférences en psychologie différentielle à l’Université Paris-Descartes. Il conduit actuellement des recherches centrées sur les relations entre la construction des choix d’orientation et le bien-être en s’intéressant notamment au rôle de variables modératrices des caractéristiques individuelles comme les traits de personnalité. Ses enseignements portent sur les différences individuelles et les théories de l’orientation
Katia Terriot est psychologue de l’Éducation nationale mention Éducation, développement, orientation, chargée d’enseignement et de recherche à l’INETOP-Cnam. Ses enseignements sont principalement axés sur l’évaluation psychologique et l’analyse de pratiques. Elle est également responsable de l’OPPIO et membre du laboratoire CRTD. Ses recherches portent essentiellement sur l’évaluation (adaptation et création d’outils et de méthodes) ainsi que sur la thématique du décrochage et de la persévérance scolaire. Elle est l’une des coordinatrices de cet ouvrage.
Emmanuelle Vignoli est maîtresse de conférences en psychologie de l’orientation au Cnam. Elle est responsable de la première année du Master 1 Psychologie de l’orientation et du travail ainsi que du master Conseil en Orientation Bilan Insertion. Elle est également directrice adjointe de l’Orientation Scolaire et Professionnelle et effectue ses travaux de recherche au sein du CRTD. Ses cours portent sur la psychologie de l’orientation tout au long de la vie, les transitions, la méthodologie de la recherche, et ses travaux de recherches sur le rôle des facteurs socio-émotionnels dans les conduites d’orientation, l’adaptation aux transitions et les représentations du travail décent.
Pierre Vrignaud3 est Professeur émérite de psychologie de l’orientation à l’Université Paris-Nanterre, membre du Centre de recherche sur le travail et le développement (CRTD) du Cnam (EA4132), équipe de psychologie de l’orientation. Ses travaux portent principalement sur la méthodologie de l’évaluation, l’élaboration et l’utilisation de tests et questionnaires. Il est coauteur de plusieurs questionnaires d’intérêts : exa 3D et IRMR3. Il est l’un des coordinateurs de cet ouvrage.
1. En France, nous utilisons plutôt les termes de consultant.
2. Parler de capacités cognitives et/ou d’intelligence(s) ? Nous préciserons notre choix dans ce chapitre.
3. Pierre Vrignaud est décédé avant la publication de cet ouvrage.
Par P. Chartier et P. Vrignaud
Dans une pratique d’évaluation, le.la praticien.ne doit maîtriser un certain nombre de connaissances et de compétences. Celles relatives à la méthodologie des évaluations (tests et questionnaires) sont l’objet de ce chapitre. Notre objectif correspond à l’esprit de cet ouvrage, apporter des éléments de connaissances et de réflexion directement utiles aux praticien.ne.s.
Dans une première partie, nous présenterons les qualités métriques que doit comporter tout dispositif de mesure : notion de standardisation, de fidélité, de validité, d’étalonnage, etc.
Puis nous discuterons de la problématique des tests informatisés et/ou à distance avant de proposer quelques pistes de développement des pratiques et des théories dans ce domaine. Enfin, nous aborderons une question cruciale qui est celle de la formation nécessaire pour les utilisateur.trice.s de tests, qu’ils soient, ou non, psychologues.
Dans ce chapitre, nous avons privilégié une approche didactique en illustrant, autant que faire se peut, les notions présentées par des exemples concrets de situations.
Notre objectif final est de réconcilier le.la praticien.ne avec les parties « analyses statistiques » des manuels de tests, parties souvent négligées par ces dernier.ère.s.
L’objectif principal de ce chapitre n’est pas de proposer une nouvelle fois un panorama complet et détaillé des méthodologies d’évaluation car, d’une part, il existe déjà des ouvrages fort complets dans ce domaine (voir quelques références ci-dessous), d’autre part, un seul chapitre n’y suffirait pas. Notre objectif est bien différent et, dans ce sens, il correspond à l’esprit de cet ouvrage : apporter des éléments de connaissances et de réflexion directement utiles aux praticien.ne.s. Nous savons, par expérience, que nombre de ceux.celles-ci sont assez rétif.ve.s à tout ce qui touche de près ou de loin aux statistiques et à la psychométrie. Pourtant, dans une pratique d’évaluation, la bonne compréhension de certaines notions statistiques et de concepts psychométriques (comme, par exemple, la notion de corrélation), et surtout l’analyse de leurs conséquences concrètes sur l’interprétation des scores, d’une part relèvent du Code de déontologie et des recommandations internationales sur l’utilisation de tests (voir en fin de ce chapitre la présentation de ces textes), d’autre part, garantissent le professionnalisme du.de la psychologue praticien.ne (Chartier, 2013).
Dans une approche que nous avons voulue didactique, nous présenterons les principales notions psychométriques en les illustrant, autant que possible, par des extraits de manuels de tests afin de rendre plus visible en quoi une bonne maîtrise de ces notions est importante dans une pratique évaluative. Au final, l’objectif de ce chapitre est de fournir au lecteur.rice les bases nécessaires à la compréhension et à l’analyse (critique) des données statistiques relatives à la fiabilité de l’épreuve utilisée. Ces données sont disponibles dans les manuels de tests mais, le plus souvent, ces éléments sont survolés par nombre de praticien.ne.s. Rappelons à cette occasion que tout test (test ou questionnaire) doit obligatoirement être accompagné d’un manuel.
Pour les lecteurs avertis, qui trouveront sans aucun doute ce chapitre incomplet, nous leur rappelons qu’il existe en français des ouvrages plus spécialisés comme celui de Dickes, Tournois, Flieller & Kop (1994), Laveault & Grégoire (2016) ou encore Bernaud (2014), leur permettant de compléter les notions présentées de manière synthétique dans ce chapitre.
Après avoir rappelé le concept de mesure et les qualités métriques que doit présenter toute épreuve d’évaluation, ce chapitre abordera les caractéristiques relatives à l’analyse de la qualité des items et des biais potentiels des épreuves. Il se terminera par les perspectives de développement ainsi que la présentation de recommandations concernant la formation des utilisateur.trice.s de tests.
Face à la diversité actuelle des outils et pratiques d’évaluation en orientation (tests, questionnaires, procédures d’auto-évaluation, etc.), mais également face aux nombreux « documents »4 disponibles sur Internet, il nous paraît essentiel de revenir à la notion de mesure. Les outils de mesure en psychologie se sont développés tout au long du XXe siècle en étroite relation avec la psychologie différentielle (pour un historique voir Huteau, 1995, ou Reuchlin, 1997). Le développement de tels outils (tests et questionnaires) permet de rendre compte des différences entre les personnes sur les grandes dimensions psychologiques comme l’intelligence, les modes de raisonnement mais aussi les traits de personnalité, les intérêts professionnels, les valeurs, etc. Sans pouvoir présenter ici un historique complet, signalons uniquement que la méthode des tests fut déjà nommée psychotechnique, le terme « psychométrie » n’apparaissant que plus tardivement pour signifier un dépassement d’une approche trop technique : « La psychométrie est une sous-discipline de la psychologie, dont l’orientation méthodologique est dominante, et pour laquelle les finalités sont d’étudier la mesure en psychologie et de développer les méthodes d’évaluation de caractéristiques individuelles. » (Bernaud, 2014, p. 10)
L’objectif est bien de fournir avec un certain niveau de confiance, et quel que soit le domaine investigué (les aptitudes cognitives, les traits de personnalité ou encore les intérêts professionnels), un ou des scores reflétant l’existence de ces différences individuelles considérées comme suffisamment stables pour faire l’objet d’une mesure. Cette approche quantitative, si elle présente des limites et si elle est remise en question dans son principe même par certains auteurs (voir, par exemple, Vautier, 2015), permet pourtant, sous réserve d’un usage respectant certains principes (voir la notion de standardisation qui sera présentée plus loin), de recueillir de manière relativement fiable et rapide, plusieurs caractéristiques de la personne qu’il conviendra, dans une pratique d’orientation, de discuter avec le/la principal.e intéressé.e dans la phase de communication des résultats. Pour cela, il est nécessaire de vérifier que l’outil de mesure présente des qualités métriques satisfaisantes.
Un outil de mesure psychométrique, test, questionnaire ou inventaire, doit permettre une évaluation objective. Pour reprendre la définition proposée par Huteau et Lautrey (1999), un test est un dispositif d’évaluation des personnes qui doit présenter un certain nombre de caractéristiques et/ou propriétés : la standardisation, la sensibilité, la validité, la référence à des normes. Nous allons reprendre toutes ces notions.
La situation d’évaluation doit être strictement définie, autant dans ses modalités de passation (matériel, temps de passation, consignes, comportement du.de la psychologue, etc.) que dans ses conditions de cotation (principes de calcul des scores, etc.). L’objectif ici est de réduire au maximum les biais possibles, comme ceux liés par exemple à la subjectivité de l’évaluateur.trice. Toutes les conditions de standardisation doivent être parfaitement décrites dans le manuel du test et soigneusement respectées par l’utilisateur.trice. C’est la principale condition pour comparer ensuite les scores observés à un ensemble de scores obtenus par un échantillon de personnes comparables (principe de l’étalonnage qui sera décrit plus loin) ou plus simplement comparer deux personnes ayant passé la même épreuve. La qualité de l’évaluation dépendra donc en grande partie du respect des règles de standardisation par le.la professionnel.le.
La notion de sensibilité est directement liée à l’objectif initial d’une évaluation qui est de rendre compte des différences interindividuelles. La mesure doit permettre ici de différencier de la manière la plus fine possible les personnes ayant passé l’épreuve. La meilleure finesse discriminative est obtenue lorsque la distribution des scores est proche de la loi normale, dite courbe de Gauss. Il existe des indicateurs statistiques5 qui permettent d’estimer la forme de la distribution des scores observés (en référence à la loi normale) mais une simple observation visuelle de cette distribution (informations souvent présentes dans le manuel du test) permet d’estimer rapidement de manière globale les écarts éventuels entre la distribution des scores observés et une distribution théorique gaussienne. Cette finesse discriminative est également liée au nombre d’items : plus l’épreuve comporte d’items, plus elle a d’échelons, donc plus il y a de chance que l’on obtienne une répartition satisfaisante des scores. Un élément va intervenir ici dans les tests cognitifs : le niveau de difficulté. On considère qu’il faut obtenir un taux de réussite moyen autour de 50 % pour que l’épreuve discrimine bien les personnes. Un taux plus faible risque d’aboutir à un effet plancher (majorité de scores faibles), un taux plus élevé à un effet plafond (majorité de scores élevés). Dans ces deux cas extrêmes, la sensibilité du test n’est pas satisfaisante.
La notion de fidélité/fiabilité fait référence à la stabilité des scores, à la reproductibilité des observations. La théorie à laquelle on se réfère le plus souvent pour cette notion est la théorie classique du score vrai qui considère que toute mesure s’accompagne d’une variable erreur. Il faut donc considérer deux types de scores : le score observé (observable = résultat au test) et le score vrai (celui que l’on cherche à mesurer mais qui n’est pas observable). L’écart entre score vrai et score observé résulte de l’erreur de mesure. Les méthodes psychométriques consistent alors à réduire autant que faire se peut cette variable erreur.
Plus le score observé sera proche du score vrai, plus l’erreur de mesure sera faible, plus l’épreuve sera fidèle. Et inversement. D’après cette théorie, le score observé n’est donc que l’une des estimations possibles du score vrai. Autrement dit, le score observé est toujours entaché d’erreur(s) dont l’origine peut venir de plusieurs sources :
de la personne évaluée, qui est plus ou moins motivée, ou plus ou moins en forme, le jour de la passation du test ;de l’épreuve qui peut comporter une faiblesse (un trop faible nombre d’items pour assurer de manière fiable une mesure, un item ambigu auquel les personnes peuvent répondre de manière aléatoire, etc.) ;des conditions de standardisation, plus ou moins respectées (influence, par exemple, du non-respect du temps de passation, erreur du.de la praticien.ne, etc.).Ces différents éléments permettent de fournir une hypothèse explicative au fait qu’une même personne confrontée plusieurs fois à la même épreuve n’obtient pas obligatoirement les mêmes résultats (voir plus loin la notion de stabilité temporelle), ou encore qu’elle peut obtenir des résultats différents selon les parties d’une même épreuve (voir plus loin la notion d’homogénéité interne).
Il est possible d’estimer cette erreur de mesure afin de calculer un intervalle de confiance dans lequel doit se trouver, selon une marge d’erreur définie, le score vrai de la personne. Ainsi, dans les dernières versions des échelles de Wechsler, les chercheurs recommandent d’exprimer les résultats non plus par un score unique de QI (quotient intellectuel) mais sous la forme d’un tel intervalle (Grégoire, 2004). Dans les pratiques d’orientation, il est beaucoup plus rare de procéder à un tel calcul mais le.la praticien.ne doit toujours garder à l’esprit que le score qu’il.elle observe, qu’il.elle calcule, n’est qu’une estimation, qu’une approximation, et cela est valable aussi bien pour les tests cognitifs que pour les questionnaires d’intérêts et de personnalité. Cet élément est à prendre également en compte lors de la phase de communication des résultats : il ne faut jamais présenter un score comme étant un résultat absolu, mais au contraire comme étant une information qui reflète, en partie – et en partie seulement – une certaine caractéristique de la personne que l’on cherche à évaluer. Et, en partie pour cette raison, il est utile de toujours « discuter » de ce/ces scores avec le.la principal.e intéressé.e dans le cadre d’une évaluation en orientation.
On peut trouver dans le manuel du test des indications concernant la constance des scores, ou fidélité temporelle, estimée le plus souvent par la méthode test/retest. Dans cette procédure, on soumet un même groupe de personnes à la même épreuve à deux reprises. On s’attend alors à une corrélation relativement forte (autour de .80), mais dont l’interprétation dépendra également de l’intervalle de temps entre test et retest. Par exemple, pour le test RCC, 99 personnes ont passé le test à 15 jours d’intervalle et on observe une corrélation de .85 (Chartier, 2012, p. 33). Cette forme de fidélité n’est pas toujours vérifiée par les auteurs des tests en raison, le plus souvent, de difficultés opérationnelles6.
Au niveau de la fidélité interne d’une épreuve – on parle aussi de consistance ou d’homogénéité –, la question est différente et consiste à analyser si tous les items d’un test (ou d’une échelle) évaluent bien la même dimension. Plusieurs indicateurs statistiques sont utilisables pour vérifier cette forme de fidélité, le principal étant le coefficient alpha de Cronbach (noté α). On considère généralement que cette fidélité est satisfaisante à partir d’un α > .70, mais il faut nuancer ce seuil et le prendre toujours avec souplesses, en fonction du domaine d’évaluation : cognitif ou conatif (Laveault, 2012 ; Vrignaud & Bernaud, 2005). Une valeur inférieure à .70 indique que tous les items de l’échelle ne mesurent pas exactement la même dimension et qu’il convient alors d’interpréter le score observé avec prudence. Par exemple, dans le questionnaire d’intérêts IRMR (ancienne version), les coefficients alpha de Cronbach varient de .60 à .87 selon les échelles, avec la valeur la plus faible observée pour l’échelle métiers de plein air. Les auteurs indiquent alors que « l’échelle plein air est par contre un peu moins homogène (.60). Ceci s’explique par la plus grande diversité des items qui composent cette échelle (métiers sportifs, métiers de la nature…), et devra amener à interpréter celle-ci d’une façon moins univoque (goût pour le plein air, mais également pour la dépense physique, les voyages). » (Bernaud & Priou, 1994, p. 31) Même si l’usage de cet indicateur d’homogénéité mérite quelques précautions (Laveault, 2012), cet exemple montre bien tout l’intérêt pour le.la praticien.ne de consulter les informations psychométriques qui lui permettent ainsi, si nécessaire, de nuancer ou de moduler ses interprétations des scores observés.
Pour nombre d’auteurs, la principale question concernant la qualité d’un test est de savoir concrètement ce qu’il mesure et quels sont les éléments objectifs apportés sur ce plan. Effectivement, un test peut présenter de bonnes qualités métriques au niveau fidélité et sensibilité, mais s’il ne mesure pas réellement ce qu’il affirme évaluer, quelle serait alors son utilité ? Le.la praticien.ne doit trouver dans le manuel du test des informations détaillées sur cet aspect de la mesure, ainsi que des indications lui permettant d’interpréter les scores observés et d’élaborer des hypothèses. En effet, « ce n’est qu’à travers l’étude empirique des liens entre les scores d’un test et d’autres données indépendantes qu’on peut découvrir ce que ce test mesure » (Anastasie, 1994, p. 157). Même si l’on considère maintenant que la validation d’un test est un processus continu, une accumulation progressive d’arguments, dans la perspective d’une validité unifiée (voir plus loin), il est possible de distinguer plusieurs formes de validité que nous allons maintenant présenter.
2.4.1. La validité de contenu
Elle concerne le contenu même du test, c’est-à-dire les items. On analyse ici dans quelle mesure les items d’un test reflètent bien l’ensemble de la dimension à évaluer. L’une des approches possibles est de définir précisément la dimension à évaluer, d’en identifier les différents sous-domaines éventuels et d’estimer l’univers des items possibles. Il conviendra ensuite d’analyser si les items de l’épreuve représentent bien un échantillon représentatif de cet univers. Dans cette phase d’élaboration d’une épreuve, l’auteur.e peut faire appel à des spécialistes du domaine qui vont expertiser l’épreuve sur ces aspects : il.elle ne conservera que les items pour lesquels il.elle observe un bon niveau d’accord entre ces expert.e.s. Le.la praticien.ne doit donc vérifier dans le manuel les informations concernant les règles de création et de sélection des items. Il.elle peut également porter un regard critique sur le niveau d’adéquation entre les items de l’épreuve et le domaine visé. Par exemple, dans un questionnaire d’intérêts, les métiers choisis (ou les activités) reflètent-ils bien l’ensemble des métiers possibles de chaque secteur professionnel défini ? On peut parler ici de représentativité de l’univers des items comme dans le cas d’un sondage où l’on peut questionner la représentativité de l’échantillon de personnes censé représenter une population. L’univers des items est parfois fini et dénombrable, par exemple le nombre de modèles que l’on peut réaliser avec quatre cubes dans le cadre des Cubes de Kohs (Dickes et al., 1994). Mais, le plus souvent, l’univers est difficile à dénombrer comme les mots pour un test de vocabulaire ou, pour revenir aux questionnaires d’intérêt, la liste de toutes les professions correspondant à un type d’intérêt. Ce qui est important, c’est que cet univers soit bien représentatif de l’ensemble des activités possibles : imaginerait-on un questionnaire d’intérêts qui ne prendrait pas en compte, par exemple, les métiers agricoles ?
2.4.2. La validité critérielle
Elle concerne les liaisons entre ce qui est évalué par l’épreuve et un critère externe. Dans le cas des épreuves de raisonnement, on s’attend à ce qu’elles présentent une liaison non négligeable avec des indicateurs de réussite scolaire et/ou professionnelle. La validité critérielle peut être concourante ou prédictive. La validité prédictive est sans doute la forme de validité la plus utile pour le.la praticien.ne : ce qui est évalué par une épreuve permet de prédire, avec une certaine marge d’erreur, la conduite de la personne (niveau de performance, niveau de satisfaction, mode privilégié de relation, etc.) lorsqu’elle est placée dans une autre situation. Par exemple, de nombreuses recherches ont montré que l’on observe des corrélations autour de .50 entre test de raisonnement et réussite scolaire (Mackintosh, 2004 ; Reuchlin, 1991), et des valeurs de même ordre entre tests cognitifs et réussite professionnelle (Bernaud, 2012 ; Schmidt & Hunter, 1998). Ces valeurs peuvent sembler modestes, mais il est difficile de trouver des indicateurs de meilleure qualité. La validité concourante (on mesure les deux variables au même moment) est aussi souvent utilisée dans la phase d’élaboration du test afin de vérifier qu’il évalue bien les dimensions postulées.
Pour les intérêts professionnels, on considère qu’ils peuvent prédire les choix de formation ou d’orientation, mais aussi le niveau de satisfaction dans un certain domaine professionnel. Ainsi, pour des élèves qui ont passé une version réduite du questionnaire d’intérêt Hexa3D en troisième, on observe, un an plus tard, que leur score le plus élevé correspond généralement au type de la série du baccalauréat choisi pour pratiquement toutes les options (Soidet & Vrignaud, 2018). Dans ce cas, on peut estimer que ce test permet bien de prédire un comportement ultérieur – avec une certaine marge d’erreur, bien entendu, il ne s’agit pas de lire l’avenir !
On cite également la validité convergente et divergente (Anastasie, 1994 ; Dickes et al., 1994) : il s’agit ici de vérifier que, dans le premier cas, le test présente bien des liaisons (corrélations) significatives avec d’autres tests, évaluant des dimensions proches, et, dans le second cas, des corrélations faibles ou nulles avec des tests évaluant des dimensions indépendantes de la dimension évaluée.
2.4.3. La validité conceptuelle (théorique ou de construit)
Cette forme de validité repose sur les liaisons attendues entre une épreuve et un modèle théorique de référence. C’est cette forme de validité qui permettra de donner du sens aux scores observés, de poser des hypothèses et de généraliser, toujours avec prudence, les caractéristiques de la personne à un ensemble de situations définies. Un premier aspect sera ici d’analyser les liaisons avec une épreuve évaluant le même concept : le.la concepteur.trice du test doit donc se référer à une approche théorique existante, en comparant les résultats obtenus à son épreuve avec les résultats des mêmes personnes confrontées à une épreuve déjà disponible et réputée fiable, partageant la même approche théorique. Dans le cas d’un questionnaire d’intérêts par exemple, on doit trouver des liaisons entre les échelles proches de deux questionnaires différents. La comparaison des résultats montrera dans quelle mesure ces deux tests évaluent bien les mêmes dimensions.
On distingue également la validité structurale : la structure de l’épreuve correspond-elle au modèle théorique ? Par exemple, dans le cas d’une épreuve de personnalité présentée comme reposant sur le modèle des Big Five7, les données du manuel doivent permettre d’identifier ces cinq facteurs et le calcul de cinq grandes dimensions ; dans le cas d’un questionnaire d’intérêt reposant sur le modèle de Holland8, l’épreuve doit fournir les six dimensions postulées (le RIASEC).
Pour estimer la validité d’une épreuve, il est donc fortement conseillé au.à la praticien.ne de consulter les informations disponibles dans le manuel de l’épreuve afin de vérifier les éléments factuels (le plus souvent il s’agit de données statistiques) qui permettront d’interpréter les scores observés dans un cadre de référence théorique précis.
2.4.4. La validité de conséquence
Messick (cité par Vrignaud, 2005) propose, en 1989, d’élargir le concept de validité pour prendre en compte six éléments de preuve et aboutir ainsi à une validité unifiée qui intègre : « le contenu du test, les processus de réponse, la structure interne, les relations avec d’autres variables, la généralisation de la validité et les conséquences du testing » (André, Loye & Laurencelle, 2015, p. 136). Cette notion de validité de conséquence met l’accent sur les implications souhaitées et non souhaitées de l’usage des tests, en particulier l’analyse des possibles effets indésirables (Laveault & Grégoire, 2005, p. 166). Ces aspects du test, qui concernent à la fois des considérations théoriques et pratiques, doivent être étudiés par l’auteur.e (et les éditeur.trice.s) du test, mais également par le.la praticien.ne qui doit toujours évaluer la pertinence de l’utilisation d’un test particulier dans un contexte spécifique.
2.4.5 La validité synthétique (ou écologique)
« À quoi bon un questionnaire aux qualités psychométriques sans faille si le.la psychologue a du mal à l’interpréter et si la personne évaluée ne comprend pas les résultats qui lui sont communiqués ! » (Vrignaud & Bernaud, 2005, p. 207). Cette forme de validité intègre les aspects de l’utilisation de l’outil d’évaluation dans les phases d’interprétation, de communication des résultats et de leur intégration par la personne. Le fait de disposer d’études de cas dans le manuel, de guide de restitution et/ou de livret de restitution des résultats à proposer à la personne, ou même de matériel supplémentaire (par exemple des cartons métiers ou activités permettant une autre forme de communication des résultats9), permet d’assurer un bon niveau de validité synthétique ou écologique en fournissant des informations et/ou documents permettant d’éclairer et de faciliter l’utilisation de l’épreuve par le.la praticien.ne et l’intégration des résultats par la personne évaluée.
2.4.6. La validité apparente
Enfin, signalons une dernière forme de validité, la validité apparente, qui n’a pas de valeur au sens psychométrique. Il s’agit uniquement ici de ce que pourrait dire un non-spécialiste face aux items d’une épreuve qu’on lui présente : qu’est-ce qui est évalué, d’après vous, dans ces situations ? Cette validité apparente, de façade (ou encore face validity), peut être considérée comme une forme naïve de validité qui ne garantit aucunement la fiabilité de l’épreuve. Par exemple, nombre d’épreuves disponibles sur Internet peuvent ne présenter que ce type de validité, ce qui peut être séduisant mais qui n’est pas suffisant, comme nous l’avons indiqué dans les pages précédentes, pour attribuer le qualificatif de test à ce type d’épreuve.
Néanmoins, cette forme de validité peut être utile dans la phase de la communication des résultats afin que la personne comprenne plus facilement ce qui est évalué dans le test.
L’étalonnage est l’élément qui permettra de situer les résultats d’un sujet dans un groupe de référence. C’est l’un des principes de base des tests psychométriques (on parle aussi de test normé) : pouvoir situer une personne au sein d’une population choisie. Par exemple, l’étalonnage permet de savoir comment se situe une personne au niveau de ses capacités cognitives par rapport à des personnes de même niveau de qualification : obtient-elle un résultat qui la place au-dessus de la moyenne de ce groupe ? ou en dessous ? Ce type d’information peut être utile dans la perspective, par exemple, d’un projet de reprise d’études. Le manuel du test fournit les étalonnages nécessaires à l’utilisation de l’épreuve, mais un.e praticien.ne averti.e doit savoir construire un étalonnage spécifique.
Le score brut observé (qui correspond à la somme des points obtenus dans un test ou dans une de ses échelles) ne prend sens10 que situé par rapport à des normes, à des scores de référence : c’est là le principe essentiel de l’étalonnage. Pour élaborer ces normes, ces valeurs de références, il faut faire passer l’épreuve à un échantillon de personnes pour obtenir la distribution de leurs scores. C’est cette répartition qui servira de norme de référence. Il faut donc être attentif à la composition de l’échantillon de personnes participant à l’étalonnage (niveau d’étude, répartition par rapport au sexe, etc.) afin que celui-ci présente un bon niveau de représentativité. Le plus souvent, on dispose de plusieurs étalonnages pour une même épreuve de manière à pouvoir choisir celui qui sera le plus proche des caractéristiques de la personne évaluée (en termes d’âge, de niveau de qualification, de sexe, etc.). Bien entendu, comme nous l’avons indiqué lors de la présentation de la notion de sensibilité, les conditions d’application et de cotation doivent être strictement comparables, sinon la comparaison des résultats serait biaisée. Les étalonnages se présentent sous la forme de tableaux dans lesquels figurent les scores bruts observés et les scores « étalonnés » organisés le plus souvent sous la forme de classes (on parle alors de classe étalonnée).
Illustrons par l’exemple des étalonnages du test RCC (Chartier, 2012). Dans sa forme b, le test RCC est composé de 40 items. Chaque item étant coté 1 (cas de la bonne réponse) ou 0 ; les scores bruts peuvent varier de 0 à 40 points. Que signifie obtenir 30 points ici ? À l’inverse d’une évaluation scolaire classique, notée de 0 à 20, avec la « moyenne » fixée à 10 qui sert de référence, on ne dispose pas, dans ce cas, de telles références. C’est l’étalonnage qui fournira ces éléments de comparaison nécessaires pour donner une signification au score observé.
L’étalonnage RCC b pour des personnes de niveau inférieur au baccalauréat (voir tableau 1) nous présente, sur la première ligne, les scores bruts observés (de 0 à 40), sur la deuxième ligne, les classes étalonnées correspondantes (ici 10 classes : de la classe 1 à la classe 10), et, sur la dernière ligne, le pourcentage (théorique) de chaque classe de scores (il s’agit ici d’un étalonnage par décilage qui comporte 10 % de personnes dans chaque classe). Nous présenterons plus loin les autres types d’étalonnages.
Tableau 1 – Exemple de l’étalonnage RCC 1 b, niveau inférieur au baccalauréat, de type décilage (extrait de Chartier, 2012).
Reprenons notre exemple. Grâce à cet étalonnage, le score observé (score brut) de 30 va prendre sens. Il correspond à la classe 4 (score étalonné), ce qui signifie que :
seulement 30 % des personnes de ce niveau de qualification obtiennent un score plus faible ;10 % des personnes de ce niveau de qualification obtiennent un score comparable ;60 % des personnes de ce niveau de qualification obtiennent un score plus élevé.Ce score est donc situé ici en dessous de la moyenne et peut correspondre à un niveau de raisonnement médiocre comparativement aux personnes de même niveau de qualification. L’étalonnage permet bien de situer les scores de la personne testée par rapport aux personnes comparables (ici de même niveau de qualification) qui composent l’étalonnage.
Complétons notre exemple en utilisant maintenant la même épreuve mais avec un étalonnage différent : celui des personnes ayant atteint au maximum un niveau V de qualification (de type CAP, BEP11), donc un niveau de qualification plus faible que la première comparaison : comment se positionnera une personne qui obtient, elle aussi, un score de 30 ? (voir tableau 2).
Tableau 2 – Étalonnage RCC b, niveau V de qualification, de type décilage (extrait de Chartier, 2012).
Ici, le score de 30 correspond à la classe 7 ce qui signifie que :
60 % des personnes de ce niveau de qualification obtiennent un score plus faible ;10 % des personnes de ce niveau de qualification obtiennent un score comparable ;seulement 30 % des personnes de ce niveau de qualification obtiennent un score plus élevé.Ce score est donc situé au-dessus de la moyenne et peut correspondre à un assez bon niveau de raisonnement logique comparativement à des personnes de ce niveau de qualification.
On peut s’apercevoir clairement qu’avec ce principe d’étalonnage, la mesure (le score observé) devient une mesure relative, relative à un certain groupe de référence, et non une mesure absolue. C’est le principe fondamental des étalonnages : transformer un score en un indice de positionnement par rapport à un groupe de référence.
On distingue classiquement deux grands types d’étalonnages : les étalonnages de type quantile et les étalonnages normalisés.
Dans le cas des étalonnages de type quantile (décilage ou centilage), chaque classe étalonnée comporte la même proportion de personnes. C’est le cas de l’étalonnage utilisé dans l’exemple précédent : un étalonnage de type décilage comportant 10 % de personnes dans chacune des classes. Selon le même principe, un étalonnage de type centilage comportera 100 classes de 1 %. Dans ce cas, on parlera plutôt de rang percentile. Savoir par exemple qu’une personne se situe au rang percentile 25, c’est indiquer que 25 % des personnes de l’étalonnage obtiennent un score inférieur au sien et 75 % un score supérieur.
Dans le cas des étalonnages normalisés, chaque classe comporte une proportion différente de personnes afin de refléter les caractéristiques d’une distribution de Gauss, avec le maximum de personnes dans la classe centrale, puis progressivement, et de manière symétrique, un pourcentage décroissant. Ces étalonnages comportent toujours un nombre impair de classes : 5, 7, 9 ou 11. C’est le cas, par exemple, de la batterie factorielle NV7 et du questionnaire d’intérêt IRMR, avec des étalonnages correspondant à celui proposé dans le tableau 3.
Tableau 3 – Exemple d’un étalonnage normalisé en 9 classes.
La proportion de chaque classe est ici différente : la classe centrale (classe 5) regroupant le maximum de personnes (19,6 %), et les classes extrêmes (classes 1 et 9) le minimum de personnes (4,4 %). Malgré ces différences, la lecture des scores procède de la même démarche. Par exemple, pour un score brut de 22, correspondant à la classe étalonnée 6, on peut dire que :
environ 60 % des personnes12 de l’étalonnage obtiennent un score plus faible ;17,5 % des personnes obtiennent un score comparable ;environ 23 %13 obtiennent un score supérieur.Figurent souvent sur ce type d’étalonnage des indications qualitatives, placées ici sur la première ligne, avec des symboles de « -- » à « ++ », qui permettent de donner un aperçu global du score observé qui peut se situer dans la moyenne (symbole 0), au-dessus de la moyenne (+) ou très au-dessus de la moyenne (++), et inversement pour les scores plus faibles que la moyenne (symboles « - » et « -- »). Cette approche peut être plus facilement compréhensible pour les personnes évaluées.
Les étalonnages de type QI sont l’une des possibilités d’étalonnage normalisé, avec une moyenne de 100 et un écart type de 15. Dans ce type d’étalonnage, la comparaison est toujours réalisée avec des personnes de même âge. Par exemple, observer un QI de 115 chez un jeune de 14 ans, et un QI de 115 chez un adulte ne signifie pas qu’ils ont les mêmes capacités cognitives mais indique qu’ils se situent tous les deux au-dessus de la moyenne de leur groupe de référence, et très précisément à un écart type au-dessus : on retrouve le principe de la mesure relative d’un score étalonné.
Les étalonnages normalisés sont plus sensibles aux scores extrêmes alors que les étalonnages de type quantile sont plus sensibles dans la zone centrale des scores.
Avant d’utiliser le ou les étalonnages fournis avec l’épreuve, le praticien.ne se doit d’en analyser la qualité car il.elle va ensuite interpréter les résultats au regard de ces scores de référence. Il.elle sera particulièrement attentif.ve aux éléments suivants qui doivent être présentés dans le manuel du test :
le nombre de personnes composant l’étalonnage. Le nombre minimum de sujets dépend du type d’échantillonnage choisi (Laveault & Grégoire, 2016) mais on peut retenir qu’un étalonnage comportant moins d’une centaine de sujets ne présente pas une fiabilité satisfaisante ;la composition de l’étalonnage. Il doit présenter les caractéristiques de la population qu’il est censé représenter : répartition par âge, niveau de qualification, sexe, etc. ;la situation de l’étalonnage. Ce n’est pas inutile de connaître les conditions de recueil des données. Par exemple, savoir si l’étalonnage a été obtenu dans un contexte de recrutement ou dans le cadre d’activité de conseil : dans le second cas, on peut penser que les données sont plus fiables car moins sujettes au biais d’évaluation ;la date de l’étalonnage. Un étalonnage trop ancien ne présentera pas obligatoirement une référence fiable. On peut retenir qu’un test qui présenterait des étalonnages datant de plus de 15 ans sera à utiliser avec prudence, en particulier en raison de l’effet Flynn (Chartier & Loarer, 2008). Dans ce cas, il est fortement conseillé de contacter l’éditeur du test car il est possible que depuis la date de l’édition de l’épreuve, d’autres étalonnages existent qui ne figurent pas dans le manuel.Nous avons vu précédemment des éléments d’analyse de la qualité globale d’un test (ses qualités métriques, les étalonnages disponibles, etc.). Une analyse plus fine est également possible qui, elle, se situe au niveau des items avec deux aspects différents : leur niveau de difficulté et leur discrimination.
Dans le cas d’items comportant une bonne réponse (cas fréquent dans les épreuves de capacités cognitives), cet indice s’exprime par un pourcentage de réussite : il s’agit du pourcentage de personnes de l’étalonnage ayant réussi l’item (plus ce pourcentage est élevé, plus l’item est facile). Pour avoir une bonne sensibilité, l’épreuve doit comporter des items de différents niveaux de difficulté afin d’obtenir au final un score brut moyen à l’épreuve correspondant à 50 % de réussite. Le plus souvent, les items sont ordonnés en fonction de leur niveau de difficulté et le.la praticien.ne peut être étonné.e d’un échec à un item précis alors que les items suivants sont réussis. Mais il est possible que l’ordre de présentation des items ne suive pas rigoureusement leur niveau de difficulté. D’où l’intérêt, pour le.la praticien.ne, de consulter ces données. Deux explications sont alors possibles :
l’item présente un niveau de difficulté plus élevé, et non pas plus faible, que les items suivants. Il n’est donc pas étonnant que la personne ait échoué ;l’ordre de présentation des items est bien cohérent avec leur niveau de difficulté. L’échec à cet item mérite par conséquent une attention particulière car la personne échoue ici alors qu’elle est capable de réussir des items plus difficiles. Dans ce cas, le.la praticien.ne peut revenir sur cet item dans la phase de communication des résultats afin de tenter de comprendre les raisons de l’échec. Il peut s’agir, par exemple, d’une erreur d’inattention, d’une réponse donnée trop rapidement, ce qui peut amener le.la psychologue à relativiser cet échec.Cet indice se fonde sur la corrélation entre l’item et le score total à son échelle de rattachement (appelée corrélation item test corrigée si l’item étudié n’entre pas dans le calcul du score). La prise en compte de l’indice de discrimination est importante pour s’assurer de la fiabilité des items de l’épreuve. La discrimination de l’item renseigne sur la qualité et la quantité d’information apportée par l’item. Lors des pré-expérimentations d’épreuves, on retirera les items ayant une discrimination faible ou nulle car ces items n’apportent aucune information utile. Des données statistiques sur la discrimination de l’item (en général les corrélations item test corrigées) doivent être fournies dans le manuel de l’instrument afin de permettre à l’utilisateur.trice d’apprécier la qualité de chacun des items. On considère habituellement les seuils suivants (à prendre toujours avec souplesse) : si l’indice est supérieur à .40, la discrimination est considérée comme très satisfaisante ; elle sera satisfaisante entre .20 et .40, faible entre .10 et .20, et insuffisante en dessous de .10 (Chartier & Loarer, 2008).
Selon la même logique que celle présentée plus haut pour l’analyse du niveau de difficulté de l’item, dans le cas d’un échec (au cours d’une épreuve visant les capacités cognitives par exemple), ou d’une réponse atypique (par exemple le choix d’un item dans le cas d’un questionnaire d’intérêts), le.la praticien.ne peut consulter le tableau adéquat afin de vérifier l’indice de discrimination (la corrélation item/test) de l’item. Dans le cas d’une faible corrélation, il est sera assez fréquent d’observer un tel profil de réponse car cet item n’est pas réellement de bonne qualité. Il n’est donc peut-être pas nécessaire d’analyser plus finement la réponse donnée. Ce qui n’est pas le cas dans la situation inverse où l’on note une corrélation modérée à forte : dans ce cas, l’item est de bonne qualité et la réponse donnée mérite une analyse plus fine afin de tenter de la comprendre.
On dit qu’une mesure est biaisée dès lors qu’elle ne mesure pas ou imparfaitement ce qu’elle est censée mesurer. Sur l’analyse des biais en général, on peut se reporter, pour des publications en français, à notre revue de questions (Vrignaud, 2002) ainsi qu’à des ouvrages généraux sur la psychométrie (Dickes et al., 1994 ; Laveault & Grégoire, 2016). On est en présence d’un biais dès lors que la nature de la variable mesurée est modifiée en fonction des caractéristiques des sujets. Le biais n’est pas dans le dispositif de mesure, il s’agit d’un effet d’interaction entre le dispositif de mesure et les caractéristiques des sujets. Le concept de biais est inséparable du concept d’équivalence. Il est commode d’établir une taxonomie des biais, comme le propose en particulier Van de Vijver (2004), en distinguant trois formes de biais : le biais de construit, de méthode, d’item.
Les biais de construit invalident le dispositif de mesure puisqu’ils mettent en évidence l’inconsistance de la variable mesurée entre les groupes. Rappelons que ce qui est observé est la performance (score ou choix d’items) à un test. Pour le.la psychométricien.ne, cette performance dépend d’une variable non observée qualifiée de latente. Lorsque l’instrument ne mesure pas la même variable latente selon les groupes, on est en présence d’un biais de construit. Les mesures des aptitudes dans des sociétés différentes sont parmi les exemples de biais de construit les plus connus. En effet, le concept d’intelligence à la base des tests cognitifs n’est pas représentatif des comportements considérés comme intelligents dans de nombreuses sociétés (ce que montre bien Gardner dans sa théorie des intelligences multiples, 1993, 1999). On peut rattacher ces biais de construit à des positions d’absolutisme culturel où l’on impose aux différentes sociétés le cadre théorique construit dans une autre. L’une des manières de pallier les biais de construit est d’adopter un cadre de relativisme culturel modéré, en définissant le concept à partir des points de vue des différentes sociétés étudiées, par exemple, en échantillonnant les items à partir des définitions de l’intelligence produites dans les différentes sociétés. Le.la praticien.ne doit donc être attentif.ve au contenu culturel éventuel présent dans le test pouvant influencer les réponses des personnes.