Test statistique

Tests_statistiques

Pourquoi un test statistique ?

Le but d’un test statistique est de vérifier une hypothèse portant sur la population parente à propos d’une différence ou d’une relation entre deux séries d’observations relevées sur un échantillon. Un test statistique peut donc être défini comme une méthode permettant de prendre une décision à partir d’informations qui sont issues d’un échantillon extrait d’une population parente. Il permet, via un échantillon, de déterminer la validité d’une hypothèse (ou, plus généralement, d’un fait) posée a priori, c’est-à-dire avant le recueil des observations. Voir article statistiques inférentielles

Un test statistique fonctionne à partir d’un jeu d’hypothèses et reposent sur une logique simple : Poser une hypothèse nulle (pas de différence entre les échantillons) à partir de laquelle on oppose et compare une hypothèse alternative. En fonction des résultats obtenus, nous acceptons ou rejetons une hypothèse. Rejeter l’hypothèse nulle signifie donc que les échantillons sont différents, significativement différents.

Exemple :

Dans un test de développement produit, l’objectif pourrait être une prise de décision pour le choix de 2 alternatives de matériaux.  Type de question à laquelle on doit répondre : Est ce que l’on observe une différence sur les ressentis des utilisateurs entre un matériau A et un matériau B ? A partir des variables obtenues lors d’un test sensoriel, l’objectif sera donc d’observer ou non une différence et de rejeter ou accepter l’une des 2 hypothèses. Le point de départ d’un test statistique est donc de commencer par une observation à partir de laquelle on bâtira un jeu d’hypothèses (L’hypothèse nulle et l’hypothèse alternative).

Les hypothèses d’un test statistique

Les hypothèses statistiques décrivent les modèles mathématiques permettant de procéder à des inférences. Le but du chercheur est, le plus souvent, de généraliser à une population les résultats obtenus sur un échantillon extrait de cette population. Pour cela, il va tester une hypothèse statistique, appelée l’hypothèse nulle (abrégée en H0 ), opposée à une hypothèse alternative (notée H1 ). Cette distinction est surtout importante au niveau des calculs statistiques. Tandis que l’hypothèse alternative (H1 ) affirme qu’il y a une différence entre les groupes (i.e., que la manipulation du chercheur a un effet), l’hypothèse nulle (H0 ) spécifie que cette différence est nulle (qu’il n’y a aucun effet). La démarche statistique consiste à privilégier l’une de ces deux hypothèses au détriment de l’autre : c’est en effet l’hypothèse nulle qui sera acceptée ou refusée alors même que, le plus fréquemment, l’hypothèse du chercheur est strictement inverse (i.e., celui-ci attend bien sûr un effet de ses manipulations expérimentales sur le comportement des individus). Il en est ainsi tout simplement parce que l’hypothèse alternative – contrairement à H0 – ne correspond pas à une seule valeur (qui est 0 pour H0 ) mais à un nombre infini de valeurs. Plus précisément, H0 prédit que les différences constatées sont simplement dues au hasard et ne sont donc pas significatives, que ce sont des fluctuations dues à des facteurs aléatoires ou à des variations liées à l’échantillon (celui-ci peut, par exemple, ne pas être suffisamment homogène). L’hypothèse alternative, en revanche, prédit que les différences observées ne sont pas dues au hasard mais à l’effet des manipulations expérimentales.

Avant de définir les hypothèses, il est important de bien identifier les critères de choix du test statistique :

Quels sont les grandeurs étudiées ? quels sont leurs natures ? Quel est la taille de l’échantillon ? Quels sont les types de séries comparées ?

  • Comparaison entre 2 pourcentages  ?
  • Comparaison de 2 moyennes ?
  • Comparaison d’un pourcentage observé par rapport à un pourcentage attendu ?
  • Comparaison d’une moyenne observée par rapport à une moyenne attendue ?
  • Comparaison de plusieurs pourcentages ?
  • Comparaison de plusieurs moyennes ?
  • Comparaisons de plusieurs distributions ?
  • Quelle est la taille de l’échantillon ?
  • Quelle est la nature des données : Quantitative, qualitative ordinale… ?
  • Quelles sont les types de séries : Appariées, indépendantes ?
  • Etc

A partir de toutes ces données, il sera possible de choisir le type de test le mieux adapté à vos contraintes.

Hypothèse nulle H0

C’est l’hypothèse qui est toujours posée en premier. Dans un test statistique, nous considérons l’hypothèse nulle comme vraie. Il est souvent précisé que l’hypothèse nulle ne présente aucune différence. Dans les faits et dans l’immense majorité des cas, il existe des différences liées aux fluctuations d’échantillonnage. Pour autant, l’hypothèse nulle considère que ces variations sont trop faibles et qu’elles ne proviennent pas d’une différence réelle lors de la comparaison des paramètres des échantillons. Lorsque l’hypothèse nulle est retenue, nous concluons qu’il n’y a pas une différence significative entre les paramètres observés des échantillons. Dans notre exemple de test de perception abordé au chapitre précédent, nous pourrions conclure que l’écart perçu entre les 2 matériaux est faible et que les 2 matériaux ne se différencient pas sur un plan sensoriel.

Hypothèse alternative H1

Par définition, l’hypothèse alternative s’oppose et offre une alternative à l’hypothèse nulle. La différence observée est trop grande pour qu’elle ne soit imputée à une simple fluctuation d’échantillonnage, comme nous l’avons décrit dans l’hypothèse nulle. Si une différence est observée entre 2 échantillons, nous rejetons l’hypothèse nulle et acceptons l’hypothèse alternative. L’hypothèse alternative indique qu’une variable indépendante a un effet significatif sur une variable dépendante. A noter qu’une hypothèse peut être bilatérale ou unilatérale.

Les risques d’erreurs

Déterminer un seuil de risque d’erreur

En test statistique, nous sommes confrontés à 2 risques d’erreur : Le risque de première espèce de type I appelé Alpha, et le risque de second espèce de type II appelé Bêta.

Risque Alpha : Affirmer une différence qui n’existe pas

Risque de rejet de l’hypothèse nulle H0 sachant que celle-ci est vraie.

Nous l’appelons également le risque de première espèce ou de type 1. Le risque α est une probabilité. Il correspond à un risque d’erreur. Il s’exprime sous forme d’une décimale comprise entre 0 < α > 1 ou sous forme d’un pourcentage entre 0% < α > 100%. Il correspond au rejet de l’hypothèse 0 et à l’acceptation de l’hypothèse alternative, alors que l’hypothèse nulle est vraie.

La valeur Alpha correspond au seuil d’acceptation maximale d’erreur en cas de rejet de l’hypothèse nulle. Dit sous un autre angle, c’est en quelque sorte la prise de risque assumée de se tromper. Il vous appartient de fixer cette valeur en fonction de la sévérité désirée. Si des enjeux majeurs découlent du test statistique, il sera donc important de diminuer cette valeur. La valeur de 5% est communément utilisée. Cela signifie que nous acceptons de nous tromper dans 5% des cas, en rejetant l’hypothèse nulle alors que celle ci est vraie. Ce qu’il faut retenir, c’est que plus ce seuil est bas, plus le test statistique gagne en significativité.

Risque Bêta : Ne pas voir une différence qui existe

Risque d’acceptation de l’hypothèse nulle H0 sachant que celle-ci est fausse.

Risque de second espèce ou de type II : Le risque Bêta est une probabilité comprise en 0 ou 1 ou entre 0 et 100%. Il correspond à un risque d’erreur. Il existe lorsque nous concluons sans percevoir de différence, alors que celle-ci existe. En d’autres termes, il correspond à l’acceptation ou au non rejet de l’hypothèse 0 alors que l’hypothèse H1 est vraie. Nous l’appelons le risque de second espèce ou de type II. Cette erreur peut être très dangereuse, notamment en médecine, ou l’on indiquerait à un patient malade qu’il ne l’est pas. Autre exemple sur un plan sensoriel lors d’un développement produit : Conclure qu’il n’y pas de différence de perception entre 2 matériaux et faire un mauvais choix lors d’un développement produit. Cela peut donc impacter la satisfaction client et compromettre le succès commercial d’un produit.

Acceptation ou rejet d’une hypothèse

En fonction de l’objectif, du type de données (qualitatives et quantitatives), de la taille de l’échantillon et de quelques autres considérations, nous choisissons le modèle de test statistique le plus approprié. Les tests les plus courants sont le test T de Student, le test Z ou le ki2 pour les données de type qualitatives.

P Value

Les tests statistiques s’appuient sur une donnée très importante, appelée p-value. P value est une valeur calculée à partir de plusieurs données comme la moyenne ou l’écart type. Sa valeur est comprise entre 0 et 1.  Cette valeur peut être considéré comme un indicateur de confiance. Elle renvoie une information de significativité du test. Plus sa valeur est faible, plus le résultat sera donc significatif. La P value vient en quelque sorte apporter un indice de confiance par rapport à notre pourcentage d’erreur fixé au début de l’étude. La p-value est fondamentale, mais il faut également en connaitre les limites, notamment pour l’interprétation.

Le résultat du test permet :

  • Soit de rejeter l’hypothèse nulle H0 et d’accepter l’hypothèse alternative H1
  • Soit de ne pas rejeter l’hypothèse nulle H0, ce qui engendre aucune conclusion.

Source

Chanquoy, Lucile. Statistiques appliquées à la psychologie (HU Psycho). Hachette Éducation.

Autres articles en lien

Article intéressant : le test de fischer

Test_statistique