Bonjour tout le monde ! 👋🏻
Dans cette 8ème édition, nous allons parler des tests statistiques qui peuvent nous faire commettre des erreurs !
C’est l’occasion de revoir plusieurs notions comme les hypothèses nulle et alternative, la p-value et bien sûr les erreurs de type I et de type II.
On y va ! 🙂
Si M. Pacoule fonctionnait comme un test statistique
👉🏻 Reprenons l’histoire de Léo qui a brillamment réussi son contrôle de maths 18/20 alors qu’il a habituellement des résultats plutôt médiocres. (Cf. la dernière édition de cette newsletter.)
Son professeur M. Pacoule le soupçonne d’avoir triché et lui a flanqué un 0 !
Si M. Pacoule avait fonctionné comme un test statistique, voici ce qu’il se serait passé.
👉🏻 Il doit décider si Léo a triché ou non. Il a comme données, la copie de Léo.
L’hypothèse nulle H0, est que Léo n’a pas triché, rien a changé par rapport à avant (c’est le statut quo).
L’hypothèse alternative H1, est que Léo a triché, on voit une différence.
M. Pacoule va regarder la copie en se disant que Léo n’a pas triché.
👉🏻 Il se place sous l’hypothèse H0.
Maintenant, il se demande qu’elle est la probabilité pour que Léo ait une si bonne note (ou encore plus extrême, donc au-dessus de 18) tout en sachant qu’il n’a pas triché.
Imaginons que l’on puisse faire ce calcul et qu’il trouve 0,03.
C’est ce qu’on appelle la p-value.
La p-value est une probabilité conditionnelle !
C’est la probabilité d’avoir les données observées dans un échantillon en supposant que H0 est vraie.
Dans un test statistique, l’hypothèse H0 correspond à un modèle statistique. Et avec ce modèle, on calcule la probabilité d’avoir nos données (ou des données plus extrêmes).
Dans notre histoire la p-value est plutôt faible (0,03).
Cela signifie qu’il est peu probable que Léo ait cette note en supposant qu’il n’ait pas triché. Mais ce n’est pas impossible !
Il a pu avoir un coup de bol (ou, comme vous le savez, si vous avez lu la dernière édition, il s’est fait aider par sa soeur).
Un test statistique est une sorte de raisonnement par l’absurde “adouci”.
On suppose H0 et on arrive à quelque chose d’assez cohérent ou de peu cohérent.
👉🏻M. Pacoule décide de s’autoriser une marge d’erreur de 5%.
C’est ce qu’on appelle le risque d’erreur noté alpha.
La p-value est, ici, inférieure à ce 5% (0,03 < 0,05).
Le professeur va donc rejeter l’hypothèse nulle (Léo n’a pas triché) au profit de l’hypothèse alternative (Léo a triché) avec 5% de risque d’erreur.
Il considère que la probabilité que Léo obtienne cette note (ou mieux !) sans avoir triché est trop faible.
L’erreur est possible !
Ici, le test statistique est positif car H1 est privilégié. Le test a détecté une différence.
Deux cas sont alors possibles :
🙋🏻♂️ Léo a effectivement triché : la décision du prof est alors un vrai positif.
positif → résultat du test (H0 est rejetée)
vrai → réalité conforme au résultat du test (Léo a triché)🙅🏻♂️ Léo n’avait pas triché : la décision du prof est alors un faux positif.
positif → résultat du test (H0 est rejetée)
faux → réalité différente du résultat du test (Léo n’a pas triché)
C’est ce qu’on appelle une erreur de type I
Dans notre histoire, Léo n’avait pas triché, mais il a travaillé beaucoup plus ! Il est victime d’un faux positif, il a subit une erreur de type I.
Et si M. Pacoule avait peur d’accuser faussement Léo ?
Il aurait décidé, par exemple, de réduire sa marge d’erreur à 1% (0,01).
Dans ce cas, la p-value de 0,03 est supérieure au risque d’erreur (0,01) et les conclusions de M. Pacoule aurait été toutes autres.
Il aurait, alors, considéré que la probabilité que Léo obtienne cette note (ou mieux) sans tricher est assez forte. C’est probable ! Léo aurait été innocenté et on aurait eu ces 2 cas :
🙋🏻♂️ Léo a triché : la décision du prof est alors un faux négatif (il n’a pas rejeté H0 alors qu’elle était fausse), le test n’a pas détecté une différence alors qu’il y en avait une.
négatif → résultat du test (H0 n’est pas rejetée)
faux → réalité différente du résultat du test (Léo a triché)
C’est ce qu’on appelle une erreur de type II
🙅🏻♂️ Léo n’a pas triché : la décision du prof est un vrai négatif (il n’a pas rejeté H0 qui est effectivement vraie)
négatif → résultat du test (H0 n’est pas rejetée)
vrai → réalité conforme au résultat du test (Léo n’a pas triché)
Selon la situation, l’une des deux erreurs peut être plus grave (notamment dans une situation médicale).
Au-delà des chiffres, il faut donc être bien conscient de la situation réelle, de ce que l’on souhaite faire, des risques que cela implique etc.
Dans notre histoire, Léo n’a pas eu de chance. Il s’est retrouvé dans les 5% du risque d’erreur.
À vous de jouer !
M. Pacoule a un doute sur la copie de Mathilde qui a obtenu 16/20.
La probabilité qu’elle obtienne 16/20 ou mieux, sans tricher, est de 0,7.
M. Pacoule s’autorise un risque d’erreur de 5%.
On sait que Mathilde a effectivement triché.
(Je vous donnerai la solution dans la prochaine édition 😉
Si vous avez du mal avec les notions de probabilités conditionnelles, faux positifs etc.. Tout ceci fait partei de mon programme de remise à niveau en maths pour la data Parcours Maths. Encore quelques jours pour rejoindre le parcours à moins de 200€ (c’est la dernière fois qu’il sera à ce prix là).
Pour en savoir plus c’est par ici : Parcours Maths
À bientôt dans la prochaine édition de la Pause Maths 👋🏻
Anne-Lise.