Méthode : Tests | Partielo

Les tests standardisés

I. INTRODUCTION

1. Définition

● Binet (1895), « les tests sont des expériences arrêtées d’avance, qui permettent d’obtenir des résultats relatifs aux différences individuelles pour plusieurs processus psychiques

● Association internationale de psychotechnique (1933), « un test est une épreuve définie, impliquant une tâche à remplir, identique pour tous les sujets examinés, avec une technique précise pour l’application du succès ou de l’échec, ou pour la notation numérisé de la réussite »

● Reuchlin (1991), « épreuve, utilisée notamment en psychologie différentielle, qui permet

de décrire le comportement d’un sujet dans une situation définie avec précision

(« consigne » du test) par référence au comportement d’un groupe défini de sujets placés

dans la même situation »

2. Différents types de tests

● Tests d'aptitudes = évaluent les performances des sujets dans différents domaines :

➯ GÉNÉRAUX : compétences globales comme l'intelligence (WISC-V, WAIS), les fonctions exécutives (Wisconsin Card Sorting Test)

➯ SPÉCIFIQUES : sous-tests des évaluations générales, comme les épreuves de vocabulaire, d'empan de chiffres (dans l'ordre ou l'envers, par exemple) et la flexibilité mentale (TMT), ou la planification (Tour de Hanoï).

Ces tests d'aptitudes sont souvent des tests de vitesse et/ou de puissance, caractérisés par

des bonnes ou mauvaises réponses, permettant d'obtenir un score.

● Tests de personnalité = visent à évaluer la personnalité, les attitudes, les motivations et

les intérêts des sujets.

➯ test objectif de personnalité : le véritable objectif de l’épreuve est dissimulé au sujet, qui

réalise un test d’efficience. Les résultats obtenus permettent d’inférer certains traits de personnalité ou styles cognitifs (GEFT).

➯ questionnaires et inventaires : ces outils confrontent le sujet à des propositions auxquelles il doit exprimer son accord ou désaccord, le plaçant ainsi dans des situations particulières

Contrairement aux tests d'aptitudes, il n’y a pas de bonnes ou de mauvaises réponses dans

les tests de personnalité. Cependant, ces tests présentent certains défis pour objectiver les

comportements : l’introspection peut introduire un décalage entre les réponses données et les comportements réels du sujet, et des biais comme la tendance à l’acquiescement ou la

désirabilité sociale peuvent intervenir. De plus, l’utilisation des échelles peut varier d’un sujet

à l’autre. (L’inventaire d’anxiété état-trait (STAI))

3. Standardisation

= consiste à placer tous les individus dans des conditions identiques afin d’éliminer les

fluctuations dans la procédure d’évaluation et de limiter les biais d’observation liés à la

subjectivité de l’évaluateur.

Elle s’applique à plusieurs aspects :

• items = les questions ou problèmes sont identiques pour tous les participants.

• consignes = les instructions sont formulées de la même manière pour chaque sujet, y

compris les relances ou les compléments d’information.

• cotation = les réponses sont évaluées selon les mêmes critères pour tous. Cela est simple

lorsque l’on mesure l’exactitude ou le temps de réponse, mais cela nécessite des critères

détaillés, parfois illustrés, pour des réponses plus complexes (définitions, prise en compte du contexte des réponses précédentes).

La standardisation est respectée dans les situations suivantes :

● Auto-questionnaires à choix multiples ou avec réponses libres (à condition que les critères

d’évaluation soient clairement définis).

● Passations collectives ou individuelles, sur papier-crayon

● Passations informatisées

Grâce à cette standardisation, la diversité des comportements observés peut être attribuée

aux différences de caractéristiques entre individus

II. Qualités métrologiques des tests

1. Sensibilité

La sensibilité d'un test = sa capacité à discriminer et à classer les individus.

La sensibilité est liée à la distribution des scores : plus il y a de valeurs différentes possibles, plus la discrimination est efficace. Si les scores des sujets se concentrent sur quelques valeurs, il devient impossible de les distinguer efficacement. La sensibilité peut être évaluée en observant la distribution des scores ou en calculant un delta de Ferguson : une mesure

comprise entre 0 (peu discriminant) et 1 (très discriminant), avec un delta de 0,8 minimum

requis pour garantir une bonne sensibilité

Pour améliorer la sensibilité d'un test :

● Ajuster la difficulté des items : introduire des items qui permettent de distinguer différents

niveaux d’efficience ou types d’attitudes

● Augmenter le nombre d'items : permet d'obtenir une plus grande variété de scores possibles

● Affiner les critères de notation : évaluation plus nuancée (réussite complète, partielle,

échec), ce qui permet d'avoir une appréciation plus précise de la performance sur chaque

item

2. Fidélité

Un test est considéré comme fidèle lorsque ses résultats ne varient pas d’une évaluation à

l’autre, qu'il s'agisse des items, de l’examinateur ou du temps.

La théorie du score vrai s'exprime ainsi : X (score mesuré) = V(score vrai) + E (erreur de

mesure)

Ces différents types de fidélité donnent lieu à des coefficients, généralement évalués selon

les seuils suivants :

• 0,70 : fidélité correcte

• 0,80 : fidélité satisfaisante

• 0,90 : fidélité élevée

=> cohérence interne ou l'homogénéité des items = capacité de divers items à opérer une évaluation cohérente d'une même caractéristique

Pour l'évaluer :

• Split-half = on divise le test en deux moitiés et corrèle les résultats.

• Pair-impair ou formes parallèles = corrélation entre deux versions du test

• L’alpha de Cronbach = mesure la corrélation moyenne entre toutes les corrélations de splithalf possibles.

Fidélité interjuges = le résultat du test ne doit pas varier selon la personne qui le fait passer.

Pour évaluer cela, plusieurs évaluateurs notent le test, et leurs résultats sont ensuite corrélés.

Une forte corrélation entre les scores obtenus au même test, corrigé par différents cotateurs,

indique une bonne standardisation.

Fidélité test retest ou constance dans le temps, implique que si le test est administré deux fois au même sujet, les résultats doivent rester stables, à condition que le test mesure une

caractéristique individuelle stable. Permet d’estimer l’erreur de mesure.

C. Validité

La validité d’un test se réfère à sa capacité à mesurer ce qu'il est censé mesurer.

On distingue plusieurs types de validité :

● Validité de construit / théorique / construction = concerne la cohérence entre les résultats

d’un test et les théories existantes sur l’aptitude ou le concept mesuré. L’objectif est de

s’assurer que le test évalue effectivement ce qu’il prétend mesurer, en s'appuyant sur des

faits scientifiques. Deux approches sont généralement utilisées :

○ Comparaison des processus : consiste à comparer les mécanismes mentaux sollicités

par les items du test avec les connaissances théoriques actuelles relatives à l’aptitude

visée. Par exemple, un test mesurant l'intelligence doit mobiliser les processus

cognitifs que les théories contemporaines associent à cette notion.

○ Corrélation avec d’autres tests :

◆ Validité convergente : cela signifie qu'il doit y avoir une corrélation avec d'autres

tests mesurant le même concept ou une aptitude similaire. Si deux tests évaluent

la même chose, leurs résultats devraient être similaires.

◆ Validité divergente : à l'inverse, il ne doit pas y avoir de forte corrélation avec des

tests mesurant des concepts différents. Cela indique que le test est spécifique à

l’aptitude ciblée.

● Validité de contenu = évalue si le test couvre tous les aspects essentiels du concept ou de

l'aptitude évaluée. Les items (questions) doivent être suffisamment variés et précis pour

mesurer toutes les dimensions importantes de ce qui est évalué. Cette validité implique

une analyse par des experts des items utilisés, des processus requis pour y répondre et

de la structure interne du test (nombre de composantes, relations entre celles-ci)

● Validité empirique / critère / critérielle

La validité empirique se concentre sur la précision et l’exactitude du test en fonction de son

but. On peut y distinguer deux sous-catégories :

○ Validité pronostique : évalue la capacité du test à prédire le succès ou l’échec futur

du sujet.

○ Validité diagnostique : doit permettre d'identifier les sujets en difficulté et fournir des indications sur la nature et l’origine des troubles observés.

Le critère diagnostique : certains tests visent à proposer une classification binaire des sujets,

les catégorisant comme sains ou déficients, à l'aide d'un critère diagnostique. Cela permet de calculer deux statistiques essentielles pour établir la confiance dans cette classification, ce qui renvoie à la validité de critère.

Sensibilité : la capacité du test à détecter l’existence d’un trouble lorsqu’il est effectivement

présent chez le sujet. Un test sensible minimise les faux négatifs, c'est-à-dire les cas où l'on

conclut à l'absence de trouble chez un patient alors qu'il est présent.

Spécificité : la capacité du test à détecter l’absence d’un trouble lorsqu’il est réellement

absent. Un test spécifique réduit les faux positifs, c’est-à-dire les cas où l'on conclut à la

présence de troubles chez des sujets sains.

Sensibilité Spécificité = proportion de malade qui seront détectés comme tel proportion de non malade (sujet sain)

Interprétation des résultats : la sensibilité et la spécificité sont interprétées en pourcentages :

● une sensibilité de 0,8 signifie que 80 % des sujets déficients seront identifiés comme tels

par le test.

● une spécificité de 0,7 indique que 70 % des sujets sains seront correctement catégorisés

grâce au test.

Il existe une dépendance entre sensibilité et spécificité. En augmentant le critère diagnostique d’un test, on peut mieux identifier les individus dont les performances sont juste au-dessus du seuil, ce qui améliore la sensibilité. Toutefois, cela peut également entraîner la classification de sujets normaux mais peu performants comme « défaillants », diminuant ainsi la spécificité.

Les critères diagnostiques établis par les tests cherchent généralement à trouver le meilleur

compromis entre une bonne spécificité et une bonne sensibilité. Cependant, il est possible de favoriser l’un au détriment de l’autre en fonction de la situation :

• si l’objectif est de ne pas manquer un trouble, on privilégiera une sensibilité accrue,

augmentant ainsi le critère diagnostique.

• si l’objectif est de réserver les examens complémentaires uniquement aux personnes qui en ont réellement besoin, on augmentera la spécificité, réduisant ainsi le critère diagnostique.

L’information relative à la sensibilité et à la spécificité peut être représentée par la courbe

ROC (Receiver Operating Characteristic). Le taux de vrais positifs correspond à la sensibilité

tandis que le taux de faux positifs se rapporte à la spécificité

Pour évaluer la capacité discriminante des tests, on utilise l’aire sous la courbe (AUC) :

- 0,50 à 0,70 = précision faible

- 0,70 à 0,90 = précision modérée

- 0,90 = précision élevée

Une différence d’AUC indique une différence dans la capacité discriminante de deux tests.

L’indice de Youden permet de déterminer le meilleur compromis entre spécificité et sensibilité.

Indice de Youden = (sensibilité + spécificité) – 1.

Plus cet indice est proche de 1, meilleur est le compromis.

III. Le classement

Une des fonctions essentielles d’un test psychologique est de situer les résultats d’un individu par rapport à ceux d’individus comparables. Nous faisons appel à un échantillon représentatif, ce qui nécessite parfois un contrôle des critères ayant un impact sur les résultats du test, tels que l’âge, le sexe et le niveau socioculturel.

1. Étalonnages

La première étape consiste à administrer le test à l’ensemble de l’échantillon. Les résultats

obtenus constituent une estimation des résultats de la population parente. Cette estimation

permet de mettre en correspondance la note obtenue au test avec le classement au sein de la population. Plusieurs formes d’étalonnage sont possibles :

● Quantilage = pour établir un quantilage, il convient d’ordonner les notes par ordre

croissant, puis de les regrouper en classes contenant le même nombre de participants.

Différents types de quantilages peuvent être définis selon le nombre de classes choisi :

○ Quartilage : 4 classes représentant 25 % des effectifs totaux

○ Quintilage : 5 interquintiles représentant 20 % des effectifs

○ Décilage : 10 interdéciles représentant 10 %

Inconvénient : Ce type de classement présente une faible discrimination entre les sujets ayant une note extrême et une forte discrimination parmi les sujets moyens, ce qui peut s'avérer peu pertinent en psychologie.

● Échelles réduites = on définit des classes de scores en proportions d'écarts-types par

rapport à la moyenne. En général, on utilise un nombre impair de classes, la classe

centrale comprenant la moyenne

◦ Échelle en k classes : chaque classe a une étendue de 2/((k-1)/2) écart-type

Nécessite une répartition proche de la loi normale.

● Échelles normalisées = Les limites de classes sont définies en percentiles. Le percentile

varie entre les classes et correspond à celui que l’on observerait si la répartition des notes

était normale. Cela revient à effectuer un quantilage basé sur les percentiles indiqués par

la loi normale, avec des limites de classe ajustées pour qu'elles comprennent les mêmes

percentiles qu’une distribution normale.

Remarque : Lorsque la distribution suit une loi normale, on observe une convergence entre

les percentiles obtenus par les échelles réduites et normalisées.

Lorsque l’on utilise des classes, le nombre d’observations indépendantes doit être au moins

dix fois supérieur au nombre de catégories de l’étalonnage. De plus, le nombre de notes

brutes observées doit être de trois à quatre fois supérieur à celui des catégories de

l’étalonnage. Plus le nombre de catégories est élevé, plus la fidélité du test doit être grande,

car il est inutile de discriminer finement des sujets dont les performances ne sont

pas stables.

Une fois l’étalonnage effectué, chaque note brute peut être associée à la classe

correspondante.

Bien qu’il y ait une perte de sensibilité au sein d’une même classe, il devient possible de comparer les notes de classe entre elles :

• Pour le même individu : identification des forces et faiblesses selon les domaines.

• Entre individus issus du même échantillon : cela permet de déterminer si l'écart de notes

brutes observé est significatif (changement de classe ou note standard).

• Entre individus provenant d’échantillons différents.

Il est possible d’exprimer les scores bruts directement en score Z : Z = (note - moyenne échantillon)/sd échantillon

Distribution Z : moyenne = 0, écart-type = 1.

Si la distribution des scores bruts est normale, il existe une correspondance entre les notes Z et les percentiles.

Partant d’une note Z, il est possible de la convertir dans d’autres distributions de moyenne et

d'écart-type connus : x = moyennedist_cible + z*écart - typedist_cible

CONCLUSION : il est crucial de respecter les procédures standardisées du test. La

connaissance des qualités métriques des tests que l’on utilise est un prérequis essentiel,

permettant de comprendre les forces et les faiblesses des tests ainsi que leurs implications.

Cela aide également à faire un choix éclairé concernant la préférence d’un test à un autre

pour une situation donnée. L’étalonnage n’est valide que pour la population d'appartenance

du sujet. Il est impératif d'utiliser les normes qui correspondent au sujet à classer, et de savoir évaluer la qualité des normes proposées. Il est également nécessaire de se tenir informé des normes les plus récentes des tests afin d’identifier les caractéristiques des sujets qui n’avaient pas été prises en compte auparavant, ainsi que d'éviter les effets de cohorte et l'évolution de la population.