Méthodologie de conception et de validation des outils d'évaluation
Méthodologie de conception et de validation des outils d'évaluation
Le Amercian Psychological Association (APA) ainsi que le National Council on Measurement in Education (NCME) ont précisé que le développement, la mise à l’essai et la validation d’un instrument d’évaluation nécessite une démarche méticuleuse et rigoureuse. Ce faisant, la conception des outils d'évaluation d'Eduplan Solutions ont été réalisés en suivant la méthode de recherche et développement « Analyse de la Valeur Pédagogique (AVP) » Rocque, Langevin et Riopel (1998) ainsi que les étapes proposées par DeVellis et Thorpe (2022).
En plus des phases préliminaires (phase de préconception et phase d'analyse fonctionnelle) la phase de conception consiste à créer un prototype initial, à le mettre à l’essai, à l’évaluer et à l’améliorer jusqu’au prototype final. Cette phase a été divisée en neuf étapes et agrémentées par les travaux de DeVellis et Thorpe (2022) à des fins de validité :
1. Déterminer l’objet à mesurer
2. Élaborer et classer les items
3. Choisir la modalité de réponse
4. Vérifier la validité de construit
5. Vérifier la validité de contenu par consensus
6. Réaliser un alpha test de l’inventaire ou du questionnaire
7. Effectuer beta test de l’inventaire ou du questionnaire
8. Vérifier la fidélité ou fiabilité de l’inventaire ou du questionnaire
9. Vérifier la sensibilité et la spécificité de l’inventaire ou du questionnaire
Élaboration et classification des items
La création des items
La création des items, issue des deux premières phases de l’AVP, s’est effectuée à partir la recension des écrits, d’une étude de différents instruments d’évaluation existants, d’une analyse minutieuse du programme de formation (PFEQ) et de la progression des apprentissages du ministère de l’éducation du Québec (), ainsi que, des entretiens avec différents professionnels.
La formulation des items
La formulation des items a pris en compte les règles de formulation suivantes :
-
Utiliser un verbe d’action observable
-
Inclure l’objet sur lequel porte l’action ou l’habileté visée
-
Ajouter un critère et une condition, le cas échéant
Ainsi que les principes de qualité et de pertinence :
-
Au besoin, aligner les items aux différents programmes de formation ou finalités poursuivis
-
Tenir compte des stades de développement et des âges chronologiques
​​
Le classement ou regroupement des items
-
Le classement des items s’est réalisé en
-
en analysant les similarités et les différences entre les items
-
en créant des sous-dimensions pour chacun des domaine
-
en regroupant les énoncés ou items qui se rapportent à une même sous-dimension;
-
en appliquant un processus de vérification et de validation auprès de cinq experts dont trois chercheurs et deux professionnels
La sélection de l’échelle de mesure et la formulation de la consigne
L’appréciation s’établit à partir d’une échelle de type Likert en cinq points, permettant d’exprimer la fréquence d’apparition. Une cotation est effectuée systématiquement pour chaque item selon les indications suivantes :
-
5 = Toujours
-
4 = Souvent
-
3 = Parfois
-
2 = Rarement
-
1 = Jamais
-
0 = Ne s’applique pas ou Je ne sais pas.
​​
L’appréciation est nuancée à partir d’une échelle de type Likert en quatre points, permettant de tempérer le degré d’assistance. Une cotation est effectuée systématiquement pour chaque item selon les indications suivantes :
-
4 = Avec un degré d’assistance extrême
-
3 = Avec un degré d’assistance significative
-
2 = Avec un degré d’assistance modéré
-
1 = Avec un degré d’assistance faible
-
0 = Ne s’applique pas ou aucun soutien
​
Le score est calculé en additionnant l'ensemble des valeurs et en divisant cette somme par le nombre de valeurs : c’est la moyenne arithmétique pour chacune des sous-catégories. Dans le calcul final, les 0 ne sont pas comptés dans la moyenne.
​En plus des moyennes obtenus dans les deux échelles, l'âge chronologique est pris en compte. C'est-à-dire, si l'âge chronologique joue un rôle particulier au regard des apprentissages visés ou habiletés ciblées, à savoir si ces derniers sont en émergence (en processus de développement), les résultats narratifs en tiennent compte. Enfin, les résultats narratifs, mettent en exergue cette nuance afin d'orienter adéquatement l'utilisateur dans la compréhension des résultats.
​
Caractéristiques métrologiques
La fidélité (fiabilité) et la validité d’un outil d’évaluation est de première importance. Un outil d’évaluation est valide lorsqu’il mesure adéquatement ce qu’il est censé de mesurer; il est fidèle ou fiable ou fidèle lorsqu’il donne le même résultat (DeVellis et Thorpe, 2022).
Fidélité (fiabilité) des outils
La fidélité représente le degré de constance ou d'exactitude avec lequel l’inventaire ou le questionnaire mesure le construit ou concept.
​
La stabilité intra-évaluateur ou stabilité test et post-test
La stabilité intra-évaluateur se rapporte à l’administration du même outil d’évaluation deux fois dans un intervalle fixe par le même évaluateur. Cette procédure est très connue sous le nom de test et post-test.
​​
L’intervalle joue un rôle important, car, d’une part, le temps qui s’écoule pourrait avoir une incidence sur les apprentissages ou les performances de la personne qui est évaluée. En conséquence, les résultats du post-test ne pourront pas être similaires au test. D’autre part, le temps qui s’écoule pourrait avoir un effet sur l’évaluateur, c’est-à-dire l’évaluateur pourrait se souvenir de son appréciation antérieure. L’intervalle qui est généralement proposé varie entre deux et quatre semaines. C’est pourquoi, un intervalle de trois semaines a été utilisé pour nos outils d’évaluation.
Pour mesurer la stabilité intra-évaluateur le coefficient de Pearson a été utilisé. Le coefficient de Pearson est un indice illustrant une relation linéaire entre deux variables continues. ​
​
Les résultats, soit le coefficient de corrélation (r) qui varie entre −1 et 1 est interprété de la manière suivante :
-
plus le coefficient se rapproche de 1, plus la relation linéaire positive entre les variables est élevée.
-
plus le coefficient se rapproche proche de −1, plus la relation linéaire négative entre les variables est élevée
-
plus le coefficient se rapproche de 0, plus la relation linéaire entre les variables est faible
-
généralement, les valeurs suivantes sont utilisées pour qualifier la corrélation linéaire :
​​
Valeur de r Force du lien linéaire
+0 Nulle
±0,50 Faible
±0,75 Moyenne
±0,87 Élevée
±1 à parfaite Très élevée
​​
​
*Échantillonnage & Résultats seront bientôt publiés : les données sont en processus de collecte et d'analyse.
La fidélité inter-évaluateur
La fidélité inter-évaluateur consiste à faire évaluer une même personne par deux évaluateurs différents par l’entremise du même outil d’évaluation; questionnaire ou inventaire. En fait, c’est le taux d'accord entre les deux évaluateurs pour un même sujet, qui nous intéresse pour déterminer la fidélité dudit questionnaire ou inventaire. Pour mesurer l’accord inter-évaluateur, la formule du Kappa (κ) de Cohen (1960) a été utilisée (DeVellis et Thorpe, 2022; McHugh, 2014,). Si les évaluateurs sont totalement en accord, κ = 1. S'ils sont totalement en désaccord (ou en accord dû uniquement au hasard), κ ≤ 0. Les résultats s’interprètent de la manière suivante
​
κ Interprétation
< 0 Désaccord
0,00 — 0,20 Accord très faible
0,21 — 0,40 Accord faible
0,41 — 0,60 Accord modéré
0,61 — 0,80 Accord élevé
0,81 — 1,00 Accord presque parfait
​
*Échantillonnage & Résultats seront bientôt publiés : les données sont en processus de collecte et d'analyse.
La fidélité moitié-moitié
La fidélité moitié-moitié vérifient la consistance ou l’homogénéité des items, à savoir si les items mesurent bien le construit ou la dimension visée. Cette procédure a été réalisée en en divisant l’inventaire en deux sous-inventaires. La division consistait à faire une répartition des items pairs et des items impairs, d’attribuer les scores respectifs à chaque moitié pour enfin d’établir la corrélation entre les deux versions. Le coefficient de Pearson a été utilisé pour calculer la corrélation.
​
La constance interne
​La constance interne consiste à évaluer la consistance des items en se basant sur la moyenne des corrélations entre les items à l’aide du coefficient alpha de Cronbach (1951)​. Les résultats sont généralement interprétés de la manière suivante:
-
un coefficient, qui varie entre 0 et 1, permet de vérifier si chacun des items est cohérent avec les autres items de cette catégorie
-
plus la valeur du coefficient se rapproche de 0, plus l’outil est imprécis et donc peu ou pas fidèle ou fiable
-
un coefficient de 0,70 représente le seuil minimal pour considérer l’outil d’évaluation fidèle ou fiable
-
un coefficient de 0,80 est considéré satisfaisant et un coefficient supérieur à 0,90 est jugé excellent
​
*Échantillonnage & Résultats seront bientôt publiés : les données sont en processus de collecte et d'analyse.
Validité des outils
La validité mesure ce qu'il est supposé de mesurer. La validité focalise la nature du contenu, à savoir si les items correspondent à ce qui est à observer pour mesure une caractéristique, une compétence, une habileté ou un trait (Fortin, 1994). Tel que souligné par plusieurs auteurs (Green et Lewis, 1986 Haynes; Fortin, 1994; Richard et Kubany, 2005; Laveault et Grégoire, 2014) l’étude de la validité de nos outils d'évaluation ont fait l’objet de six procédures rigoureuses et systématiques :
​
-
Faire une recension des écrits sur le domaine;
-
Définir le domaine et les différentes composantes du construit mesuré;
-
Identifier les items par l’étude entre les items;
-
Valider les items par des experts;
-
Réaliser un alpha test de l’inventaire ou du questionnaire
-
Exécuter un beta test afin de qualifier et quantifier leurs jugements à l’aide d’un questionnaire accompagnée d’une échelle formalisée
La tâche des experts et des professionnels consistait à :
-
vérifier que les items appartenaient réellement à la dimension à laquelle ils avaient été attribués;
-
vérifier que les habiletés mesurées constituaient bien un échantillon représentatif des domaines de compétences ou d’habiletés visés;
-
examiner le degré de précision, de clarté, de compréhension des items;
-
réviser le degré de pertinence des items;
-
réviser la justesse et la pertinence des rapports
​
​
​
Sensibilité et spécificité des outils
La sensibilité se réfère à la capacité d'identifier la personne ayant cette caractéristique, cette habileté ou ce trait, alors que la spécificité se rapporte à la capacité d'identifier la personne n'ayant pas cette caractéristique, cette habileté ou ce trait.
​
La sensibilité est généralement calculée en divisant le nombre total des vrais positifs par la somme des vrais positifs et faux négatifs. La spécificité est généralement calculée par le total des vrais négatifs par la somme des vrais négatifs et faux positifs. Plus le résultat se rapproche de 0, plus l’outil est moins sensible ou spécifique. De manière générale, un coefficient de 0,70 représente le seuil minimal pour considérer l’outil d’évaluation sensible ou spécifique. Un résultat de 0,80 est considéré satisfaisant et un résultat supérieur à 0,90 est jugé excellent.
​
Sensibilité Spécificité
Cas Non-Cas
Positif VP (Vrais positifs) FP (Faux positifs)
Négatif FN (Faux négatifs) VN (Vrais négatifs)
Total VP+FN FP+VN
0 à 1 VP / VP+FN VN / VN+FP
​
​
*Échantillonnage & Résultats seront bientôt publiés : les données sont en processus de collecte et d'analyse.