Les tests standardisés
I. INTRODUCTION
1. Définition
● Binet (1895), « les tests sont des expériences arrêtées d’avance, qui permettent d’obtenir des résultats relatifs aux différences individuelles pour plusieurs processus psychiques
● Association internationale de psychotechnique (1933), « un test est une épreuve définie, impliquant une tâche à remplir, identique pour tous les sujets examinés, avec une technique précise pour l’application du succès ou de l’échec, ou pour la notation numérisé de la réussite »
● Reuchlin (1991), « épreuve, utilisée notamment en psychologie différentielle, qui permet
de décrire le comportement d’un sujet dans une situation définie avec précision
(« consigne » du test) par référence au comportement d’un groupe défini de sujets placés
dans la même situation »
2. Différents types de tests
● Tests d'aptitudes = évaluent les performances des sujets dans différents domaines :
➯ GÉNÉRAUX : compétences globales comme l'intelligence (WISC-V, WAIS), les fonctions exécutives (Wisconsin Card Sorting Test)
➯ SPÉCIFIQUES : sous-tests des évaluations générales, comme les épreuves de vocabulaire, d'empan de chiffres (dans l'ordre ou l'envers, par exemple) et la flexibilité mentale (TMT), ou la planification (Tour de Hanoï).
Ces tests d'aptitudes sont souvent des tests de vitesse et/ou de puissance, caractérisés par
des bonnes ou mauvaises réponses, permettant d'obtenir un score.
● Tests de personnalité = visent à évaluer la personnalité, les attitudes, les motivations et
les intérêts des sujets.
➯ test objectif de personnalité : le véritable objectif de l’épreuve est dissimulé au sujet, qui
réalise un test d’efficience. Les résultats obtenus permettent d’inférer certains traits de personnalité ou styles cognitifs (GEFT).
➯ questionnaires et inventaires : ces outils confrontent le sujet à des propositions auxquelles il doit exprimer son accord ou désaccord, le plaçant ainsi dans des situations particulières
Contrairement aux tests d'aptitudes, il n’y a pas de bonnes ou de mauvaises réponses dans
les tests de personnalité. Cependant, ces tests présentent certains défis pour objectiver les
comportements : l’introspection peut introduire un décalage entre les réponses données et les comportements réels du sujet, et des biais comme la tendance à l’acquiescement ou la
désirabilité sociale peuvent intervenir. De plus, l’utilisation des échelles peut varier d’un sujet
à l’autre. (L’inventaire d’anxiété état-trait (STAI))
3. Standardisation
= consiste à placer tous les individus dans des conditions identiques afin d’éliminer les
fluctuations dans la procédure d’évaluation et de limiter les biais d’observation liés à la
subjectivité de l’évaluateur.
Elle s’applique à plusieurs aspects :
• items = les questions ou problèmes sont identiques pour tous les participants.
• consignes = les instructions sont formulées de la même manière pour chaque sujet, y
compris les relances ou les compléments d’information.
• cotation = les réponses sont évaluées selon les mêmes critères pour tous. Cela est simple
lorsque l’on mesure l’exactitude ou le temps de réponse, mais cela nécessite des critères
détaillés, parfois illustrés, pour des réponses plus complexes (définitions, prise en compte du contexte des réponses précédentes).
La standardisation est respectée dans les situations suivantes :
● Auto-questionnaires à choix multiples ou avec réponses libres (à condition que les critères
d’évaluation soient clairement définis).
● Passations collectives ou individuelles, sur papier-crayon
● Passations informatisées
Grâce à cette standardisation, la diversité des comportements observés peut être attribuée
aux différences de caractéristiques entre individus
II. Qualités métrologiques des tests
1. Sensibilité
La sensibilité d'un test = sa capacité à discriminer et à classer les individus.
La sensibilité est liée à la distribution des scores : plus il y a de valeurs différentes possibles, plus la discrimination est efficace. Si les scores des sujets se concentrent sur quelques valeurs, il devient impossible de les distinguer efficacement. La sensibilité peut être évaluée en observant la distribution des scores ou en calculant un delta de Ferguson : une mesure
comprise entre 0 (peu discriminant) et 1 (très discriminant), avec un delta de 0,8 minimum
requis pour garantir une bonne sensibilité
Pour améliorer la sensibilité d'un test :
● Ajuster la difficulté des items : introduire des items qui permettent de distinguer différents
niveaux d’efficience ou types d’attitudes
● Augmenter le nombre d'items : permet d'obtenir une plus grande variété de scores possibles
● Affiner les critères de notation : évaluation plus nuancée (réussite complète, partielle,
échec), ce qui permet d'avoir une appréciation plus précise de la performance sur chaque
item
2. Fidélité
Un test est considéré comme fidèle lorsque ses résultats ne varient pas d’une évaluation à
l’autre, qu'il s'agisse des items, de l’examinateur ou du temps.
La théorie du score vrai s'exprime ainsi : X (score mesuré) = V(score vrai) + E (erreur de
mesure)
Ces différents types de fidélité donnent lieu à des coefficients, généralement évalués selon
les seuils suivants :
• 0,70 : fidélité correcte
• 0,80 : fidélité satisfaisante
• 0,90 : fidélité élevée
=> cohérence interne ou l'homogénéité des items = capacité de divers items à opérer une évaluation cohérente d'une même caractéristique
Pour l'évaluer :
• Split-half = on divise le test en deux moitiés et corrèle les résultats.
• Pair-impair ou formes parallèles = corrélation entre deux versions du test
• L’alpha de Cronbach = mesure la corrélation moyenne entre toutes les corrélations de splithalf possibles.
Fidélité interjuges = le résultat du test ne doit pas varier selon la personne qui le fait passer.
Pour évaluer cela, plusieurs évaluateurs notent le test, et leurs résultats sont ensuite corrélés.
Une forte corrélation entre les scores obtenus au même test, corrigé par différents cotateurs,
indique une bonne standardisation.
Fidélité test retest ou constance dans le temps, implique que si le test est administré deux fois au même sujet, les résultats doivent rester stables, à condition que le test mesure une
caractéristique individuelle stable. Permet d’estimer l’erreur de mesure.
C. Validité
La validité d’un test se réfère à sa capacité à mesurer ce qu'il est censé mesurer.
On distingue plusieurs types de validité :
● Validité de construit / théorique / construction = concerne la cohérence entre les résultats
d’un test et les théories existantes sur l’aptitude ou le concept mesuré. L’objectif est de
s’assurer que le test évalue effectivement ce qu’il prétend mesurer, en s'appuyant sur des
faits scientifiques. Deux approches sont généralement utilisées :
○ Comparaison des processus : consiste à comparer les mécanismes mentaux sollicités
par les items du test avec les connaissances théoriques actuelles relatives à l’aptitude
visée. Par exemple, un test mesurant l'intelligence doit mobiliser les processus
cognitifs que les théories contemporaines associent à cette notion.
○ Corrélation avec d’autres tests :
◆ Validité convergente : cela signifie qu'il doit y avoir une corrélation avec d'autres
tests mesurant le même concept ou une aptitude similaire. Si deux tests évaluent
la même chose, leurs résultats devraient être similaires.
◆ Validité divergente : à l'inverse, il ne doit pas y avoir de forte corrélation avec des
tests mesurant des concepts différents. Cela indique que le test est spécifique à
l’aptitude ciblée.
● Validité de contenu = évalue si le test couvre tous les aspects essentiels du concept ou de
l'aptitude évaluée. Les items (questions) doivent être suffisamment variés et précis pour
mesurer toutes les dimensions importantes de ce qui est évalué. Cette validité implique
une analyse par des experts des items utilisés, des processus requis pour y répondre et
de la structure interne du test (nombre de composantes, relations entre celles-ci)
● Validité empirique / critère / critérielle
La validité empirique se concentre sur la précision et l’exactitude du test en fonction de son
but. On peut y distinguer deux sous-catégories :
○ Validité pronostique : évalue la capacité du test à prédire le succès ou l’échec futur
du sujet.
○ Validité diagnostique : doit permettre d'identifier les sujets en difficulté et fournir des indications sur la nature et l’origine des troubles observés.
Le critère diagnostique : certains tests visent à proposer une classification binaire des sujets,
les catégorisant comme sains ou déficients, à l'aide d'un critère diagnostique. Cela permet de calculer deux statistiques essentielles pour établir la confiance dans cette classification, ce qui renvoie à la validité de critère.
Sensibilité : la capacité du test à détecter l’existence d’un trouble lorsqu’il est effectivement
présent chez le sujet. Un test sensible minimise les faux négatifs, c'est-à-dire les cas où l'on
conclut à l'absence de trouble chez un patient alors qu'il est présent.
Spécificité : la capacité du test à détecter l’absence d’un trouble lorsqu’il est réellement
absent. Un test spécifique réduit les faux positifs, c’est-à-dire les cas où l'on conclut à la
présence de troubles chez des sujets sains.
Sensibilité Spécificité = proportion de malade qui seront détectés comme tel proportion de non malade (sujet sain)
Interprétation des résultats : la sensibilité et la spécificité sont interprétées en pourcentages :
● une sensibilité de 0,8 signifie que 80 % des sujets déficients seront identifiés comme tels
par le test.
● une spécificité de 0,7 indique que 70 % des sujets sains seront correctement catégorisés
grâce au test.
Il existe une dépendance entre sensibilité et spécificité. En augmentant le critère diagnostique d’un test, on peut mieux identifier les individus dont les performances sont juste au-dessus du seuil, ce qui améliore la sensibilité. Toutefois, cela peut également entraîner la classification de sujets normaux mais peu performants comme « défaillants », diminuant ainsi la spécificité.
Les critères diagnostiques établis par les tests cherchent généralement à trouver le meilleur
compromis entre une bonne spécificité et une bonne sensibilité. Cependant, il est possible de favoriser l’un au détriment de l’autre en fonction de la situation :
• si l’objectif est de ne pas manquer un trouble, on privilégiera une sensibilité accrue,
augmentant ainsi le critère diagnostique.
• si l’objectif est de réserver les examens complémentaires uniquement aux personnes qui en ont réellement besoin, on augmentera la spécificité, réduisant ainsi le critère diagnostique.
L’information relative à la sensibilité et à la spécificité peut être représentée par la courbe
ROC (Receiver Operating Characteristic). Le taux de vrais positifs correspond à la sensibilité
tandis que le taux de faux positifs se rapporte à la spécificité
Pour évaluer la capacité discriminante des tests, on utilise l’aire sous la courbe (AUC) :
- 0,50 à 0,70 = précision faible
- 0,70 à 0,90 = précision modérée
- 0,90 = précision élevée
Une différence d’AUC indique une différence dans la capacité discriminante de deux tests.
L’indice de Youden permet de déterminer le meilleur compromis entre spécificité et sensibilité.
Indice de Youden = (sensibilité + spécificité) – 1.
Plus cet indice est proche de 1, meilleur est le compromis.
III. Le classement
Une des fonctions essentielles d’un test psychologique est de situer les résultats d’un individu par rapport à ceux d’individus comparables. Nous faisons appel à un échantillon représentatif, ce qui nécessite parfois un contrôle des critères ayant un impact sur les résultats du test, tels que l’âge, le sexe et le niveau socioculturel.
1. Étalonnages
La première étape consiste à administrer le test à l’ensemble de l’échantillon. Les résultats
obtenus constituent une estimation des résultats de la population parente. Cette estimation
permet de mettre en correspondance la note obtenue au test avec le classement au sein de la population. Plusieurs formes d’étalonnage sont possibles :
● Quantilage = pour établir un quantilage, il convient d’ordonner les notes par ordre
croissant, puis de les regrouper en classes contenant le même nombre de participants.
Différents types de quantilages peuvent être définis selon le nombre de classes choisi :
○ Quartilage : 4 classes représentant 25 % des effectifs totaux
○ Quintilage : 5 interquintiles représentant 20 % des effectifs
○ Décilage : 10 interdéciles représentant 10 %
Inconvénient : Ce type de classement présente une faible discrimination entre les sujets ayant une note extrême et une forte discrimination parmi les sujets moyens, ce qui peut s'avérer peu pertinent en psychologie.
● Échelles réduites = on définit des classes de scores en proportions d'écarts-types par
rapport à la moyenne. En général, on utilise un nombre impair de classes, la classe
centrale comprenant la moyenne
◦ Échelle en k classes : chaque classe a une étendue de 2/((k-1)/2) écart-type
Nécessite une répartition proche de la loi normale.
● Échelles normalisées = Les limites de classes sont définies en percentiles. Le percentile
varie entre les classes et correspond à celui que l’on observerait si la répartition des notes
était normale. Cela revient à effectuer un quantilage basé sur les percentiles indiqués par
la loi normale, avec des limites de classe ajustées pour qu'elles comprennent les mêmes
percentiles qu’une distribution normale.
Remarque : Lorsque la distribution suit une loi normale, on observe une convergence entre
les percentiles obtenus par les échelles réduites et normalisées.
Lorsque l’on utilise des classes, le nombre d’observations indépendantes doit être au moins
dix fois supérieur au nombre de catégories de l’étalonnage. De plus, le nombre de notes
brutes observées doit être de trois à quatre fois supérieur à celui des catégories de
l’étalonnage. Plus le nombre de catégories est élevé, plus la fidélité du test doit être grande,
car il est inutile de discriminer finement des sujets dont les performances ne sont
pas stables.
Une fois l’étalonnage effectué, chaque note brute peut être associée à la classe
correspondante.
Bien qu’il y ait une perte de sensibilité au sein d’une même classe, il devient possible de comparer les notes de classe entre elles :
• Pour le même individu : identification des forces et faiblesses selon les domaines.
• Entre individus issus du même échantillon : cela permet de déterminer si l'écart de notes
brutes observé est significatif (changement de classe ou note standard).
• Entre individus provenant d’échantillons différents.
Il est possible d’exprimer les scores bruts directement en score Z : Z = (note - moyenne échantillon)/sd échantillon
Distribution Z : moyenne = 0, écart-type = 1.
Si la distribution des scores bruts est normale, il existe une correspondance entre les notes Z et les percentiles.
Partant d’une note Z, il est possible de la convertir dans d’autres distributions de moyenne et
d'écart-type connus : x = moyennedist_cible + z*écart - typedist_cible
CONCLUSION : il est crucial de respecter les procédures standardisées du test. La
connaissance des qualités métriques des tests que l’on utilise est un prérequis essentiel,
permettant de comprendre les forces et les faiblesses des tests ainsi que leurs implications.
Cela aide également à faire un choix éclairé concernant la préférence d’un test à un autre
pour une situation donnée. L’étalonnage n’est valide que pour la population d'appartenance
du sujet. Il est impératif d'utiliser les normes qui correspondent au sujet à classer, et de savoir évaluer la qualité des normes proposées. Il est également nécessaire de se tenir informé des normes les plus récentes des tests afin d’identifier les caractéristiques des sujets qui n’avaient pas été prises en compte auparavant, ainsi que d'éviter les effets de cohorte et l'évolution de la population.
