Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Quels sont les instruments et outils de mesure psychologiques existants pour étayer les recherches scientifiques ?
Les questionnaires d'évaluation sont les instruments les plus utilisés aujourd'hui dans le domaine de la médecine et des sciences humaines pour évaluer des variables telles que l'incapacité physique, l'altruisme ou la douleur. Pourtant les praticiens connaissent souvent mal ces instruments. Que mesurent-ils vraiment ? Comment les résultats doivent-ils être interprétés ? Le présent ouvrage s'efforce de répondre à ces questions. Il ne s'agit pas d'un simple mode d'emploi des questionnaires d'évaluation. Son objectif principal est de fournir à tous, chercheurs et praticiens, les bases méthodologiques nécessaires pour développer un tel instrument et pour en interpréter les résultats. Après avoir exposé les fondements d'une mesure objective formulés par le modèle de Rasch, les auteurs adressent une série de questions fréquemment posées dans leur contexte d'application. Quels sont les critères d'une mesure objective ? Les résultats peuvent-ils être interprétés de manière quantitative ? Comment valider un tel instrument de mesure ? Peut-on comparer les réponses observées chez différents groupes de sujets ? Six chapitres, agrémentés de nombreux exemples pratiques et d'exercices résolus, exposent les bases méthodologiques de l'évaluation quantitative à l'aide du modèle de Rasch. Le septième chapitre décrit, pas à pas, les étapes du développement et de la validation d'une échelle de mesure de l'habileté manuelle.
Un ouvrage de référence pour interpréter les données et les résultats de certains tests psychologiques.
A PROPOS DES AUTEURS
Carlyne Arnould est licenciée en kinésithérapie et réadaptation et Assistante de recherche.
Céline Decruynaere est licenciée en kinésithérapie et réadaptation et Assistante de recherche.
Massimo Penta est ingénieur industriel et Docteur en Sciences biomédicales. Ses recherches portent sur les méthodes psychométriques et l’évaluation fonctionnelle en réadaptation. Il développe un logiciel permettant l’encodage et l’interprétation d’instruments d’évaluation à l’aide du modèle de Rasch.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 282
Veröffentlichungsjahr: 2013
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Dans les sciences du comportement et plus particulièrement dans les sciences mèdicales, les chercheurs et les praticiens étudient des variables qui ne se prêtent pas a une quantification directe, qu’il s’agisse de l’émotion, de la douleur, de la dépression, de la qualité de vie, pour ne citer que ces exemples. La mesure de ces variables, encore appelées «variables latentes», est obtenue à partir des réponses aux questions (items) caractérisant la variable d’intérêt. Certains modèles probabilistes rassemblés dans la catégorie générale des Modèles de la Réponse à l’ltem (MRI) permettent de convertir les réponses aux items (scores bruts) en mesures linéaires. Les développements théoriques ainsi que les applications des MRI ont été particulièrement stimulés par les travaux du mathématicien danois Georg Rasch. Il fut le premier à utiliser une fonction logistique afin de construire un test psychométrique (Rasch, 1960).
Les auteurs de ce livre ont acquis, au fil des années, une expérience approfondie du modèle de Rasch par la mise en pratique et la divulgation de sa méthode, comme peuvent en témoigner leurs nombreuses publications et communications dans les colloques internationaux.
J’espère que le lecteur appréciera ce livre dont l’objectif premier est de le conduire pas a pas dans la construction et l’interpretation d’une échelle de mesure.
David Andrich – Mars 2005 Professor and Dean, School of Education Murdoch University Murdoch, Western Australia
La mesure d’une grandeur telle que la longueur d’un objet apparaît comme un acte tout à fait anodin. À l’aide d’une latte graduée, d’un mètre ruban ou d’un décamètre, il suffit d’aligner la graduation «zéro» de l’instrument avec une extrémité de l’objet à mesurer et de lire la graduation située en regard de l’autre extrémité de l’objet. Cette procédure s’applique aussi bien à la mesure de la taille d’un enfant, du diamètre moyen d’une cellule de tissu vivant ou à l’arpentage d’un terrain à bâtir. À l’heure actuelle, ces différentes grandeurs sont mesurées à l’aide d’une seule et unique unité, le mètre; seuls les instruments utilisés sont spécifiques à l’objet de la mesure. Mais il n’en a pas toujours été ainsi (Ministère de l’Industrie et de l’Aménagement du Territoire, 1989; Marquet et coll., 1997). Au XVIIIe siècle, la France comptait plus de 700 unités de mesure différentes. Ces unités variaient d’une ville à l’autre, d’une corporation à l’autre et parfois même selon la nature de l’objet mesuré. Ainsi, par exemple, la superficie des planchers s’exprimait en «pieds carrés» et celle des tapis en «aunes carrées», ce qui rendait toute comparaison extrêmement laborieuse. Source d’erreurs de calcul et de fraudes lors des transactions commerciales, cette diversité portait également préjudice au développement des sciences. Il fallut attendre 1793 pour que le mètre soit défini comme égal à «la dix millionième partie du quart du méridien terrestre». Le mètre concrétisait l’idée d’une unité universelle, qui n’était spécifique à aucun peuple du globe ni à aucune situation de mesure. Le système métrique fut alors institué et, en 1799, un mètre étalon en platine a été déposé aux Archives de la République. Au cours du XIXe siècle, un nombre croissant de pays ont adhéré au système métrique, multipliant ainsi le nombre de copies «exactes» de l’étalon nécessaires à la réalisation d’instruments de mesure. Au cours du XXe siècle, le manque d’uniformité dans l’établissement des copies «exactes» et la précision demandée par certaines mesures scientifiques ont suscité une révision de la définition du mètre à deux reprises. Depuis 1983, le mètre est défini comme égal à «la longueur du trajet parcouru dans le vide par la lumière pendant 1/299792458 de seconde». Cette nouvelle définition offre une meilleure précision et une meilleure garantie d’invariance et de conservation à très long terme.
Le procédé de mesure d’une grandeur telle que la longueur d’un objet repose sur une unité de mesure constante et reproductible, dans l’exemple ci-dessus, le mètre. Cet étalon constitue la base des instruments permettant d’effectuer des mesures en toutes circonstances. Les résultats ainsi obtenus représentent une longueur invariante dans toutes les régions du monde où l’on partage le même système d’unités. Une chronique analogue appartient sans doute à l’histoire du développement de la balance, du chronomètre ou du thermomètre (Choppin, 1985). Dans le domaine des sciences exactes, les méthodes de mesure progressent et les étalons eux-mêmes se renouvellent constamment pour augmenter l’invariance et la précision des mesures.
Dans le domaine des sciences humaines, les problématiques de la mesure sont analogues mais le type des variables considérées est souvent différent. La psychologie, l’éducation, la sociologie ou la médecine, par exemple, s’intéressent principalement à des variables qui ne peuvent pas faire l’objet d’une observation directe. Citons, à titre d’exemple, l’anxiété, l’intelligence, l’altruisme ou la douleur. Ces variables sont appelées des variables latentes, traits latents, attributs ou encore facteurs car elles caractérisent un aspect du sujet de la mesure (généralement une personne) sans pour autant être visibles de l’extérieur. Les variables latentes sont des constructions de l’esprit, abstraites, dont la grandeur peut toutefois être inférée si elles se manifestent de manière concrète (par ex., l’anxiété peut se manifester par des crises de larmes). Dans le cas des variables latentes, la mesure, c’est-à-dire «l’action de déterminer la valeur de certaines grandeurs par comparaison avec une valeur constante de même espèce, prise comme terme de référence (étalon, unité)» (Le petit Robert, 1993), est une opération beaucoup plus complexe car aucun étalon n’est disponible pour la comparaison de ces grandeurs. Dans ce cas, comment est-il possible de mesurer une telle variable?
La mesure d’une variable latente repose sur des principes analogues à ceux de la métrologie, mais les outils de mesure sont différents : il s’agit généralement de questionnaires. Par exemple, une réponse affirmative à l’énoncé «il m’arrive d’être craintif face à une situation imprévue» indique un certain niveau d’anxiété. Une réponse affirmative à l’énoncé «je suis terrorisé face à toute situation imprévue» indique un niveau d’anxiété plus important, mais d’une quantité inconnue. Il reste néanmoins qu’une réponse affirmative aux deux énoncés révèle une anxiété supérieure à une seule réponse affirmative. La mesure d’une variable latente commence par un comptage d’événements discrets (tout comme l’on compte le nombre de graduations métriques qui séparent les deux extrémités d’un objet pour en mesurer la longueur). Mais le comptage n’est pas suffisant car la mesure d’une grandeur nécessite une unité de mesure constante. Dans le cas particulier de l’évaluation de l’anxiété, cette unité représente une quantité d’anxiété constante tout au long de l’échelle de mesure de la variable latente. Une telle unité de mesure peut être établie à l’aide d’un modèle probabiliste connu sous le nom de modèle de Rasch, mathématicien danois du nom de Georg Rasch (1901-1980), auteur de ce modèle dans les années 1950-1960. Ce modèle permet de construire une échelle de mesure continue et linéaire, qui supporte les comparaisons quantitatives, conformément aux critères de mesure propres aux sciences exactes.
Les variables latentes sont généralement évaluées à l’aide de tests ou de questionnaires qui peuvent revêtir différentes formes. Par exemple, le test peut être composé de questions auxquelles le sujet répond par «oui» ou «non», d’énoncés par rapport auxquels le sujet marque son accord sur une échelle à plusieurs niveaux (par ex., «pas du tout d’accord»/«d’accord»/«tout à fait d’accord»), d’épreuves que le sujet peut réussir ou échouer, d’activités dont le sujet doit estimer la difficulté (par ex., «impossible»/«difficile»/«facile»/«très facile»), etc. Les questions d’un test sont généralement appelées les «items»; les réponses possibles sont généralement appelées les «catégories de réponse». Un test peut donc être considéré comme une série d’épreuves (les items) présentant une série de niveaux de réponse préétablis (les catégories de réponse). Dès lors, par analogie aux sciences physiques, il est possible de déterminer la grandeur d’une variable latente en comparant la réponse d’un sujet avec les niveaux de réponses pour chaque épreuve d’un test, pour autant que toutes les épreuves et tous les niveaux de réponses soient de même espèce que la grandeur à mesurer (Rasch, 1960). Le principe de la mesure s’applique à toute variable qui supporte les comparaisons quantitatives (par ex., tel sujet est plus anxieux que tel autre, ou tel sujet est moins indépendant que tel autre).
À l’origine, le modèle de Rasch a été utilisé en psychologie et a trouvé d’autres champs d’application dans les sciences de l’éducation, les sciences médicales et plus largement dans différentes disciplines des sciences humaines. À l’heure actuelle, le modèle connaît un succès croissant. L’Institue for Objective Measurement (IOM, www.rasch.org), basé à Chicago, est chargé de promouvoir la théorie et les applications du modèle. Fondé en 1996, l’IOM compte à ce jour plus de 200 membres aux quatre coins du globe et plusieurs bureaux représentatifs aux États-Unis, en Australie, en Europe, en Asie et en Russie.
L’objectif de cet ouvrage est de fournir à tous, chercheurs et praticiens, les outils pour construire un instrument de mesure d’une variable latente. Alternativement, cet ouvrage permettra à tout utilisateur d’échelles existantes de comprendre les fondements d’une mesure objective en vue d’une interprétation quantitative. Les trois premiers chapitres présentent le contexte théorique en décrivant l’élaboration d’un test, le modèle de Rasch et les critères que doit vérifier une mesure objective. Les trois chapitres suivants décrivent la mise en œuvre arithmétique, la vérification des critères de mesure et l’appréciation de la qualité d’un test. L’analyse proprement dite est généralement réalisée à l’aide de logiciels spécifiques, dont les principaux indicateurs sont présentés. Le chapitre 7 présente un exemple concret du développement d’une échelle de mesure. Tout au long de l’ouvrage, le corps du texte présente les concepts généraux. Certaines questions spécifiques ou certains développements arithmétiques sont traités en encart offrant une explication plus détaillée. Enfin, le texte est agrémenté d’exemples concrets et chaque chapitre est clôturé par une série d’exercices résolus.
Au cours d’une discussion de cas cliniques ou lors d’une délibération sur la valeur des étudiants, il n’est pas rare de soutenir que tel patient ou tel étudiant est plus ou moins performant par rapport à tel autre. Dans le cadre d’une discussion de cas cliniques, il arrive de comparer la capacité fonctionnelle des patients. Dans le cas d’une délibération, il arrive de comparer la valeur littéraire des étudiants. Dans les deux cas, nous comparons de manière quantitative un attribut des personnes (par ex., leur capacité fonctionnelle), même si ces personnes ont par ailleurs peu d’autres attributs en commun. Si la nature d’une personne est complexe et certainement multidimensionnelle, toute comparaison quantitative doit être restreinte à un seul aspect de cette nature, soit à un seul attribut de la personne (Thurstone, 1928a). La première condition pour le développement d’une échelle de mesure est donc de spécifier la variable à mesurer et de s’y limiter. Dans les paragraphes qui suivent, nous utiliserons l’exemple de la «capacité locomotrice» pour illustrer les premières étapes de l’élaboration d’une échelle de mesure.
Si nous considérons la capacité locomotrice d’un individu, c’est-à-dire sa capacité à se mouvoir, à se déplacer d’un lieu à un autre, nous pouvons imaginer des niveaux allant d’une capacité locomotrice infiniment petite à une capacité locomotrice infiniment grande. Nous pouvons, par exemple, situer à une extrémité une personne paralysée et incapable de se déplacer et situer, à l’autre extrémité, un champion olympique pulvérisant le record du 400 mètres haies. Une gamme infinie est inclue entre les deux extrémités de l’échelle et représente par exemple la capacité locomotrice d’un enfant se déplaçant à 4 pattes, d’un adolescent marchant avec une béquille ou d’un homme d’affaire courant pour ne pas manquer son train. La gamme de capacité locomotrice peut donc être représentée sur une ligne dont une extrémité représente les valeurs les plus faibles et l’autre représente les valeurs les plus élevées. La localisation de chaque personne le long de l’axe ainsi défini représente la valeur de sa capacité locomotrice (figure 1.1). L’échelle de mesure proprement dite est matérialisée par une série de situations ou de questions, les items, qui évaluent la capacité locomotrice du sujet, comme par exemple «Marcher 100 mètres sur terrain plat». Les items d’un test impliquent différents niveaux de capacité locomotrice de manière à couvrir la gamme de valeurs que l’on souhaite explorer. Plus l’item est difficile, plus il nécessite une capacité locomotrice élevée. Les items les plus faciles peuvent être réalisés par les individus les moins capables. Les items les plus difficiles ne peuvent être réalisés que par les individus les plus capables.
Figure 1.1 – Représentation de la variable «capacité locomotrice». Plus la capacité locomotrice d’une personne est élevée, plus elle est localisée à droite sur l’échelle. Les items qui constituent un test de capacité locomotrice sont localisés sur le même axe. Plus un item est difficile, plus il est localisé à droite sur l’échelle, et plus la capacité locomotrice nécessaire pour le réussir est élevée. Ainsi, la personne C devrait être capable de réussir les 3 items les plus faciles et devrait être incapable de réussir les 2 items les plus difficiles. De même, l’item 2 devrait être réussi par les deux personnes les plus capables (C et D) et échoué par les deux personnes les moins capables (A et B).
Les paragraphes qui suivent décrivent les premières étapes de l’élaboration d’une telle échelle de mesure, à savoir : l’identification de la variable, la sélection des items, l’observation de la variable et enfin son évaluation. La dernière étape, le processus de mesure proprement dit, fera l’objet du chapitre 2.
Le principe même de toute mesure nécessite un continuum linéaire sous-jacent, telle qu’une échelle de longueur, de poids, de température ou d’âge. Dans le cas de la capacité locomotrice, nous pouvons également imaginer une échelle abstraite sur laquelle les différentes personnes sont localisées en fonction de leur capacité locomotrice. Si nous voulons appliquer le principe de la mesure à la capacité locomotrice, il est nécessaire de réduire toute variation qualitative de la capacité locomotrice des personnes à une variation quantitative de leur localisation le long d’un axe gradué (Thurstone, 1928a). Ce processus permet d’exprimer la capacité locomotrice d’une personne par un nombre réel, mesure représentant sa position le long de l’échelle de capacité locomotrice. Toute mesure constitue donc un processus réducteur qui vise à quantifier de manière spécifique un attribut du sujet, de telle sorte que le résultat ne soit pas ou peu influencé ou le moins possible par d’autres attributs du sujet. S’il est possible de comparer différentes personnes en affirmant que telle personne possède une capacité locomotrice «plus grande» ou «plus petite» que telle autre personne, il est possible de représenter cet attribut le long d’un axe gradué.
L’échelle de mesure peut alors être matérialisée par une série d’activités ou de situations, constituant un test pour la mesure de cette variable. La sélection des activités doit être réalisée en gardant à l’esprit l’impératif de quantification car l’ensemble des items va constituer la définition opérationnelle de la variable, c’est-à-dire les graduations de l’échelle. De plus, la plage de mesure souhaitée doit également être déterminée à l’avance. En effet, si l’échelle sous-jacente est infinie, un instrument de mesure possède toujours une plage de mesure finie (tout comme un décamètre, un mètre ruban et un microscope couvrent des longueurs d’ordres de grandeur différents). Dans le cas de la capacité locomotrice, il est possible d’énumérer un large inventaire d’activités, couvrant, par exemple, des niveaux aussi faibles que «marcher à 4 pattes» et aussi élevés que «courir dans les escaliers». Il est toutefois important que chaque item implique une certaine quantité de capacité locomotrice tout en étant indépendant d’autres attributs du sujet ou de l’environnement.
Exemple : Dans le cas de la variable «capacité locomotrice», nous pouvons imaginer un test comprenant les cinq items suivants pour évaluer une personne ayant une mobilité réduite. Il apparaît raisonnable de penser, a priori, que les 5 items définissent des niveaux croissants de capacité locomotrice, du plus facile (item 1) au plus difficile (item 5). Toutefois, ce postulat ne sera confirmé que lors du calibrage du test.
Marcher sur terrain plat
Monter les escaliers en posant deux pieds par marche
Monter les escaliers en posant un seul pied par marche
Sauter à cloche-pied sur le pied dominant
Sauter à cloche-pied sur le pied non dominant
La sélection des items peut s’avérer particulièrement délicate dans le cas de variables dont la nature n’est pas clairement définie. La méthode couramment utilisée consiste à rassembler le plus grand nombre d’items (généralement plus d’une centaine) de manière à couvrir l’entièreté de la plage de mesure envisagée et à contenir les items les plus pertinents et les plus représentatifs par rapport à la variable d’intérêt. Une présélection des items peut être établie sur base d’entretiens avec les sujets visés ou avec des experts en la matière (par ex., personnel soignant, famille, professeur, éducateur) ou également au cours d’une observation directe des sujets. Lors de l’élaboration de la liste des items, certains critères devront être respectés quant au contenu de l’item, à sa longueur, à sa formulation. Nous renvoyons le lecteur aux ouvrages de référence qui présentent ces critères de manière détaillée (Streiner & Norman, 1995; Laveault & Grégoire, 2002). La liste d’items ainsi obtenue constitue la première ébauche du test qui sera soumis aux sujets.
À ce stade-ci, il est possible d’anticiper l’ordre des items le long de la variable qu’ils sont sensés définir. Par exemple, Wright & Master (1982) présentent une méthode de classification des items développée d’après les travaux d’Allport & Hartman (1925) et Thurstone (1928b). Cette méthode consiste à demander à un échantillon de juges de classer chaque item dans l’une des 11 «piles» équidistantes en fonction de la quantité de la variable qu’ils représentent. Les items les plus faciles sont classés dans la première pile et les items les plus difficiles dans la onzième. Le classement moyen d’un item permet d’anticiper sa localisation le long de l’axe de mesure, la dispersion des réponses permet de déterminer la cohérence des juges. Les items les plus incohérents peuvent alors être modifiés ou éliminés d’emblée avant de soumettre le test aux sujets proprement dits. Une fois établi, ce classement préliminaire opéré par les juges pourra être soumis à la calibration du test. Un item ne sera définitivement retenu qu’après avoir calibré le test et vérifié que l’item est ajusté à l’échelle de mesure, comme nous le verrons au chapitre 5.
Une fois les items rassemblés, la capacité des personnes peut être observée au moyen de différentes procédures. Les méthodes d’observation les plus couramment utilisées sont l’observation qualitative de la performance de la personne, la mesure du temps nécessaire pour réaliser l’item ou encore la perception de la difficulté de chaque item par la personne. Chacune de ces méthodes d’observation est focalisée sur un aspect particulier de la variable mais tend à négliger les autres.
L’observation qualitative de la performance d’une personne est généralement réalisée dans un environnement contrôlé (par ex., un laboratoire clinique) et sur base de critères stricts. La personne réalise activité et l’expérimentateur observe cette activité suivant les critères définis. Souvent, il s’agit de juger de la qualité d’une performance ou de compter le nombre d’erreurs dans la réalisation d’une activité. En milieu scolaire, par exemple, l’institutrice comptera le nombre de fautes de lecture d’un texte standardisé pour évaluer la capacité à lire. Si la personne fournit un effort particulier afin de réaliser l’item au mieux, cette méthode d’observation a tendance à évaluer la performance maximale de la personne plutôt que sa performance habituelle dans la vie de tous les jours. Par contre, si la personne est inhibée par la présence de l’observateur, cette méthode risque de sous-estimer la capacité de la personne.
Exemple : Si nous prenons le premier item du test d’évaluation de la capacité locomotrice «Marcher sur terrain plat», les critères qualitatifs sur lesquels l’observation se base peuvent être l’absence ou la présence de déséquilibres, la régularité de la longueur du pas, le relèvement correct de la pointe du pied lors du passage du pas, etc.
La seconde méthode d’observation consiste à chronométrer le temps nécessaire pour effectuer l’activité. Cette mesure du temps est une méthode d’observation qui présente l’avantage d’une certaine objectivité et une facilité de mise en œuvre : dans le cas de la lecture, le temps mis pour lire un texte; dans le cas de la capacité locomotrice, le temps mis pour parcourir une distance de 10 mètres par exemple. Il faut cependant être prudent dans l’interprétation des chronométrages car une personne qui réalise une activité deux fois plus vite qu’une autre n’a pas forcément une capacité deux fois plus grande. De plus, dans la vie de tous les jours, le temps n’est pas toujours le critère primordial dans la réalisation d’une activité.
Une troisième méthode est l’auto-évaluation des sujets par euxmêmes. Dans ce cas, les sujets ne réalisent pas l’activité mais fournissent la perception qu’ils ont de leur capacité lorsqu’ils la réalisent. Si cette méthode d’observation est plus sujette à une sur- ou sous-estimation de la capacité réelle de la personne, elle présente l’avantage d’avoir une bonne validité de conséquence car elle reflète la perception du sujet lorsqu’il réalise l’activité dans son environnement quotidien et non dans des conditions de laboratoire. De plus, cette méthode permet aux personnes de fournir une estimation de leur capacité au cours du temps, sans qu’elle ne soit réduite aux conditions particulières de l’évaluation (Lusardi & Smith, 1997). Cette méthode présente néanmoins le désavantage de ne pas être applicable aux personnes présentant des difficultés cognitives.
L’expérimentateur se retrouve face à un choix de la méthode d’observation sachant que la liste des différentes méthodes présentées ici n’est pas exhaustive (Ziebland et coll., 1993). Le plus souvent, le choix dépendra de la variable d’intérêt et de la finalité du test à construire. Il s’agira de sélectionner la méthode qui permettra de refléter au mieux cette variable.
L’évaluation de la variable consiste à attribuer un score à chaque observation. Le score est une valeur numérique associée à la performance du sujet à un item. Pour réaliser cette opération, un format de réponse doit être mis en place. Il existe différents formats de réponse en fonction de la méthode d’observation utilisée. Si nous considérons l’item «Sauter à cloche-pied sur le pied dominant», l’observation qualitative peut amener à un format de réponse correspondant au nombre d’erreurs observées sur une durée déterminée. Les erreurs pouvant être par exemple la pose du pied opposé au sol ou l’utilisation d’un autre appui. Dans ce cas, plus le nombre d’erreurs est élevé, plus le score est élevé et moins la personne est capable. Pour ce même item, l’expérimentateur peut également choisir de chronométrer le temps nécessaire pour sauter à cloche-pied sur une distance donnée et attribuer un score en fonction du temps mis pour parcourir la distance. Dans la majorité des situations expérimentales, les formats de réponse peuvent être ramenés à un format dichotomique ou polytomique tels qu’ils sont détaillés ci-dessous.
Le format dichotomique est le plus simple. Le choix s’effectue entre «d’accord» ou «pas d’accord», «vrai» ou «faux», «réussi» ou «échoué». Ce format ne permet que deux niveaux de réponse auxquels il est classiquement attribué un score de 0 ou 1. La valeur du score attribué n’a pas d’importance. Généralement, une réponse témoignant d’une quantité plus grande de la variable est associée à un score plus élevé.
Exemple : Les items 1, 2 et 3 du tableau 1.1 présentent un format de réponse dichotomique.
Tableau 1.1 – Exemple de test de capacité locomotrice.
La figure 1.2 illustre le format de réponse dichotomique pour l’item «Monter les escaliers en posant un seul pied par marche» du test de capacité locomotrice. Les personnes dont la capacité locomotrice est inférieure à la difficulté de l’item (localisées à gauche de l’item) ont plus de chance d’échouer à celui-ci que de le réussir. Les personnes dont la capacité locomotrice est supérieure à la difficulté de l’item (localisées à droite de l’item) ont plus de chance de le réussir que d’y échouer.
Notons que le format dichotomique s’applique également aux items à choix multiple. Dans ce cas, la personne doit choisir la bonne réponse parmi plusieurs propositions, un score de 1 est attribué si la réponse correcte est choisie et un score de 0 pour une réponse incorrecte. Ce format est souvent utilisé en milieu scolaire.
Figure 1.2 – Format de réponse dichotomique. Les personnes ayant une capacité locomotrice plus élevée que celle nécessaire pour «Monter les escaliers en posant un seul pied par marche» (localisées à droite de l’item) sont censées le réussir, les personnes localisées à gauche de l’item sont censées y échouer.
Exemple : Que vaut √169?
La réponse 3 est la réponse correcte et se voit attribuer un score de 1; les réponses 1, 2 et 4 sont des réponses incorrectes et se voient attribuer un score de 0.
Le format polytomique, aussi appelé polychotomique, permet de donner une réponse plus nuancée. Dans ce cas, le choix s’opère sur plus de deux catégories ordonnées.
Exemple : Les items 4 et 5 du tableau 1.1 présentent un format de réponse polytomique.
En fonction de la nature de la variable, le choix peut s’effectuer entre, par exemple, «pas du tout d’accord», «pas d’accord», «sans opinion», «d’accord», «totalement d’accord» ou encore entre «jamais», «rarement», «parfois», «souvent», «très souvent», etc. Un score numérique peut être attribué à chaque catégorie, classiquement : 0, 1, 2... m-1 (où m représente le nombre de catégories de réponse pour un item). La figure 1.3 illustre le format de réponse polytomique à l’item «Sauter à clochepied sur le pied dominant». La réponse attendue à cet item dépend de la capacité de la personne et de la difficulté de l’item. La difficulté de l’item est égale à la moyenne des seuils qui séparent deux catégories de réponse adjacentes. Plus la personne a une capacité élevée, plus elle a de chance d’obtenir un score élevé. La réponse de la personne est observée sur quatre niveaux de réponse ordonnés. A priori, une capacité locomotrice plus élevée est nécessaire pour répondre «facile» plutôt que «difficile» à un item donné. De même, une capacité locomotrice plus élevée est nécessaire pour répondre «difficile» plutôt que «très difficile», et ainsi de suite. Le format polytomique possède l’avantage d’augmenter la résolution de l’évaluation par rapport à une réponse dichotomique, dans la mesure où les catégories de réponse intermédiaires peuvent être discriminées. Cette notion est détaillée dans l’encart 1.1.
Figure 1.3 – Format de réponse polytomique. Plus la capacité locomotrice d’une personne est élevée, plus l’activité «Sauter à cloche-pied sur le pied dominant» est censée être facile, et plus le score (chiffre entre parenthèses) attribué à la personne est élevé. Un seuil (traits pointillés) est situé au niveau de capacité pour lequel deux catégories de réponses adjacentes ont la même probabilité d’être sélectionnées. La difficulté moyenne de l’item (trait plein vertical) est égale à la difficulté moyenne des seuils.
Encart 1.1 – La résolution de l’évaluation.
Plus nous augmentons le nombre de catégories, plus nous augmentons la résolution de l’évaluation, c’est-à-dire plus nous pouvons nuancer la réponse de la personne. Considérons l’exemple de l’évaluation de la douleur. Si nous demandons aux personnes d’évaluer leur perception de douleur sur une échelle à deux catégories («pas douloureux / douloureux») ou sur une échelle à trois catégories («pas douloureux / légèrement douloureux / fortement douloureux»), nous percevons bien que nous obtiendrons une information plus nuancée dans le second cas.
Néanmoins, ceci n’est vrai que dans certaines limites. En effet, au-delà d’un certain nombre de catégories, la confusion commence à apparaître car les différentes catégories ne peuvent plus être discriminées correctement. À ce moment, l’ajout de catégories supplémentaires n’augmente pas nécessairement la précision des évaluations. Au contraire, si le nombre de catégories proposées est supérieur au nombre de catégories pouvant être discriminées, la catégorie choisie par une personne devient imprévisible, ce qui tend à diminuer la précision de l’évaluation. Par exemple, l’échelle visuelle analogique (EVA) est un outil couramment utilisé dans l’évaluation de la douleur. L’EVA consiste en une droite ancrée à ses extrémités par deux labels: «Pas de douleur» et «La pire des douleurs imaginables».
Les personnes doivent marquer leur perception de l’intensité de la douleur par un trait vertical sur cette droite. Les données sur une échelle de ce type sont habituellement enregistrées comme un nombre allant de 0 à 100. Il s’agit donc d’une échelle à 101 catégories. Or, Miller (1956) a estimé que, d’une façon générale, le maximum de niveaux différents que l’être humain peut raisonnablement discriminer pour une variable unidimensionnelle est égal à 7. D’autre part, l’interprétation et l’utilisation de cette échelle peuvent être différente selon l’individu. De plus, l’échelle risque également d’être utilisée différemment par la même personne d’une fois à l’autre, ce qui va entraîner des scores incohérents. Le nombre de catégories d’une échelle de réponse doit donc être adapté à la capacité de discrimination des personnes pour la variable considérée. Dans la plupart des cas, la transformation de ces EVA en échelles à 3 ou 4 catégories permettra d’améliorer la résolution de l’observation sans compromettre sa reproductibilité (Linacre, 1998a).
Une fois qu’une personne a répondu à l’ensemble du test, il est possible de calculer son score total. Le score total d’une personne (r) est obtenu en additionnant les scores de la personne à chacun des items. Ce score total donne une indication sur la capacité de la personne : plus il est élevé, plus la capacité de la personne est élevée. Comme l’indique la figure 1.1, la personne A n’a pas une capacité suffisante pour réussir le moindre item du test; la personne B a une capacité suffisante pour réussir l’item le plus facile du test (item 1); la personne C a une capacité suffisante pour réussir les 3 items les plus faciles (1, 2 et 3) et la personne D, la plus capable, a de fortes chances de réussir tous les items et d’obtenir un score maximum de 5 pour ce test (dans le cas d’items dichotomiques).
De la même manière, il est possible de calculer le score total d’un item (s). Il s’obtient en additionnant le score de chaque personne à cet item. La figure 1.1 indique que l’item 1 est le plus facile; il sera probablement réussi par toutes les personnes excepté la personne A et obtiendra un score total de 3 (dans le cas d’items dichotomiques). L’item 2 est le suivant et sera probablement réussi par les deux personnes les plus capables et obtiendra un score total de 2. L’item 5, le plus difficile, ne sera probablement réussi que par la personne la plus capable, A, et obtiendra un score total de 1. Le score total d’un item donne également une indication de la difficulté de l’item : plus il est élevé et plus l’item est facile.
L’échelle des scores observés satisfait les propriétés d’une échelle ordinale, quel que soit le format choisi, dichotomique ou polytomique. Pour ce type d’échelle, les valeurs numériques sont ordonnées mais il n’y a aucune contrainte sur la distance qui sépare deux valeurs numériques. Dans l’exemple du test de capacité locomotrice, la personne C (score total égal à 3) a une capacité locomotrice plus importante que la personne B (score total égal à 1) mais pas nécessairement trois fois plus importante. Nous pouvons seulement affirmer que la personne C a une capacité locomotrice plus importante que la personne B. En d’autres termes, une échelle ordinale ne fournit aucune garantie en ce qui concerne la linéarité des valeurs. Ce type d’échelle possède des propriétés plus limitées que les échelles utilisées pour la mesure de variables physiques comme la température (échelle d’intervalles) ou la longueur (échelle proportionnelle). L’encart 1.2 présente les quatre types d’échelles définies par Stevens (1946) qui, de la plus limitée à la plus perfectionnée, sont l’échelle nominale, ordinale, d’intervalles et proportionnelle. Leurs propriétés sont décrites et illustrées à l’aide d’exemples. D’emblée, il est important de noter que les propriétés d’une échelle limitée sont également satisfaites pour une échelle perfectionnée.
Encart 1.2 – Les quatre types d’échelle de mesure (Stevens, 1946).
Stevens (1946) définit le processus de mesure dans son sens le plus large comme l’attribution de nombres à des objets ou événements. Cette attribution peut s’effectuer suivant différentes règles. Nous décrivons ci-dessous ces règles d’attribution et les différents types d’échelles qui en découlent.
L’échelle nominale
Dans le cas d’une échelle nominale, un symbole, pouvant être un nombre, est attribué à chaque objet ou personne dans le but de regrouper ceux-ci en fonction d’une caractéristique commune. Ces symboles constituent l’échelle nominale (également appelée échelle de classification ou catégorielle).
Un exemple pour un échantillon de personnes est d’attribuer le nombre 0 aux personnes de sexe masculin et le nombre 1 aux personnes de sexe féminin. Un autre exemple consiste à attribuer un nombre à chacun des participants d’une épreuve sportive dans un but d’identification, par exemple «le coureur numéro 215». Dans ce cas particulier, chaque «groupe» est constitué d’un seul élément.
L’unique propriété de ces échelles est l’équivalence; tous les éléments d’un groupe sont équivalents en ce qui concerne la caractéristique faisant l’objet de la classification. Les nombres ou symboles peuvent être changés sans altérer l’information contenue dans l’échelle. Par exemple, nous pouvons très bien attribuer le nombre 1 aux personnes de sexe féminin et le nombre 2 aux personnes de sexe masculin.
L’échelle ordinale
Dans le cas de l’échelle ordinale, très répandue en sciences humaines, les observations sont ordonnées ou placées en rang.
Nous pouvons reprendre notre exemple de l’évaluation de la capacité locomotrice. Un score de 0 est attribué si l’activité est impossible, un score de 1 si l’activité est très difficile, un score de 2 si l’activité est difficile et un score de 3 si l’activité est facile.
Ces échelles supportent des comparaisons telles que «est plus grand que», «est plus petit que», «est égal à». Toutes les transformations qui préservent l’ordre s’appliquent à ce type d’échelle. Si nous reprenons notre exemple, au lieu d’une échelle 0, 1, 2 et 3, nous pouvons tout aussi bien utiliser une échelle 2, 3, 4 et 5 ou 1, 3, 4 et 7 pour autant que l’ordre soit préservé. Sur ce type d’échelle, les intervalles peuvent être de taille inégale : l’intervalle qui existe entre 2 et 3 n’est pas nécessairement égal à l’intervalle entre 3 et 4. En conséquence, il n’est pas admis d’exprimer la tendance centrale des observations par la moyenne et sa variance.
L’échelle d’intervalles
