Des stats et des maths.
#3 Les statistiques ou comment en savoir plus sans regarder de trop près !
Hello 👋🏻
Merci à toutes celles et ceux qui ont rejoint “La Pause Maths” pour cette 3ème édition.
Vous pouvez (re)voir les premières éditions directement sur le site ou sur l’application Substack.
Aujourd’hui, on commence à mettre les pieds dans l’eau. Bonne trempette !
Ce que nous disent les indicateurs de position.
Parfois, j’entends dire qu'en data, on n’a pas besoin des maths, mais juste des statistiques et des probabilités. Pourtant, ce sont bel et bien des mathématiques 😅.
Elles utilisent des outils tels que les fonctions, les intégrales, les dérivées, et l’algèbre linéaire…
Si on n’y est pas habitué, quand on se retrouvera nez à nez avec une fonction de répartition, on peut se faire une frayeur.
Mais heureusement, on peut commencer par un petit plouf dans le bain des statistiques descriptives, qui savent être accueillantes.
C’est ce que l’on va faire aujourd’hui.
Enfilez votre plus beau maillot de bain 🩳, pas besoin de bouée, aucun risque de noyade. 😉
Vous ne l’aviez peut-être pas remarqué, mais vous avez déjà toutes et tous utilisé les statistiques !
Remontons en arrière dans les souvenirs du petit Léo (personnage fictif qui aurait pu être n’importe qui d’entre nous).
La moyenne à la rescousse de Léo !
Comme tous les dimanches, c’est poulet-frites chez papi mamie.
Ce jour-là, tonton Roger est de la partie !
Il est rigolo mais pose toujours trop de question sur l’école et ça agace Léo.
“Alors mon petit, comment ça va l’école, tu as eu de bonnes notes, j’espère !”
Léo n’a pas le temps de discuter, Walker Texas Ranger va bientôt commencer.
“Oui, oui, j’ai 15 de moyenne !” Et hop, il file devant la tv.
Le tour est joué, tonton Roger ne peut rien rétorquer devant un bon 15 de moyenne !
La moyenne générale est là pour donner une idée globale de l’ensemble des notes. Par contre, elle garde des secrets : elle ne dit pas que Léo a eu 19 en sport et 8 en français. Mais chut ! 🤫
C’est justement l’utilité des indicateurs statistiques : fournir un aperçu des données sans avoir à tout examiner en détail.
Selon ce que l’on veut savoir, on regarde tel ou tel indicateur, et souvent plusieurs, pour avoir une idée plus juste.
Remarque : on parle parfois d’indicateurs, de paramètres ou de mesures.
💡 Petite pause blabla :
C’est important de plonger dans le vocabulaire pour ne pas être dérouté.
Les maths, c’est un peu comme apprendre une langue. Si d’un coup, je me mettais à écrire en japonais, vous auriez un peu de mal à comprendre.
Est-ce que ça veut dire que vous êtes “nuls” ? Non. Vous n’avez juste pas appris cette langue.
Quand vous vous retrouvez devant un mot ou une formule de maths que vous ne comprenez pas, ne pensez pas de vous que vous êtes “nuls”. Il vous faut juste du temps pour connaître ce langage avec ses symboles, ses notions, ses outils…
Rappelez-vous bien ce que je viens de dire, car il y a une formule plus bas 😇
Pour en savoir plus sur nos données, sans les regarder précisément, il y a différents types d’indicateurs : ceux de position ou de tendance centrale (comme la moyenne) et les indicateurs de dispersion.
Aujourd’hui attardons-nous sur les indicateurs de position.
Les indicateurs de position
Le plus connu, c’est justement la moyenne. Mais saviez-vous qu’il existe plusieurs types de moyenne ?
Moyenne arithmétique : on additionne les valeurs et on divise par le nombre de valeur. C’est certainement celle que vous connaissez.
Moyenne pondérée : on l’utilise si les valeurs ont des poids différents. C’est parfois le cas à l’école, quand une matière compte plus qu’une autre. Alors, on additionne les valeurs multipliées par leur coefficient et on divise le tout par la somme des coefficients.
Moyenne géométrique : vous ne l’avez probablement jamais ou peu croisée. Au lieu de faire la somme des n valeurs, on fait le produit des n valeurs. Puis on prend la racine n-ième de ce produit.
Moyenne harmonique : c’est l’inverse de la moyenne arithmétique des inverses des valeurs. Oulaaah, je vous ai embrouillé ? Ce n’est pas grave, on peut laisser cette moyenne de côté, pour le moment.
Maintenant, faisons un petit exercice !
(Je vous avais prévenu, dans la dernière édition, qu’on allait commencer les calculs 😇)
Voici quatre valeurs : 5, 7, 3, 9
Calculer la moyenne arithmétique puis géométrique.
Vous pouvez utiliser géogébra : https://www.geogebra.org/classic#cas
Imaginons qu’il y ait une erreur dans nos données, un 0 est apparu malencontreusement : 5, 7, 3, 90. Calculer à nouveau les moyennes.
Quelle moyenne est la plus sensible à cette valeur extrême ?
La moyenne arithmétique est sensible à cette donnée extrême.
Est-ce que cela veut dire que c’est une mauvaise moyenne ?
Tout dépend de ce que l’on veut en faire. Sa sensibilité aux valeurs extrêmes, la rend utile pour les détecter. 💁🏻♀️
Mais si nous avons besoin d’un indicateur de position qui soit moins sensible aux grandes valeurs, alors ce n’est pas l’indicateur le plus adéquat.
👀 Attention les yeux 👀
On va faire un petit plongeon dans la formule de la moyenne arithmétique d’une série statistique :
Pourquoi je vous montre ça ? Non, ce n’est pas pour vous effrayer, bien au contraire, c’est pour que vous puissiez vous familiariser avec le langage mathématique.
Voici comment utiliser cette formule :
Quels sont les autres indicateurs principaux de position ?
le mode : c’est tout simplement la valeur que l’on retrouve le plus souvent.
(Dans l’exemple juste au-dessus, le mode est 2 car il apparaît 7 fois)la médiane : elle partage nos données en 2 parties. 50% des données sont inférieures ou égales à la médiane, et 50% lui sont supérieures ou égales.
les quartiles : c’est comme la médiane mais pour partager les données en quart.
Au moins 25% des valeurs sont inférieures au 1er quartile.
Au moins 75% des valeurs sont inférieures au 3ème quartile.
Remarque : la médiane c’est le 2ème quartile !
Mon post Linkedin sur ces indicateurs : post
Médiane VS Moyenne : le duel !!
Quel indicateur choisir entre la médiane et la moyenne ?
Pour choisir, il faut connaître leurs forces et leurs faiblesses et savoir ce que l’on veut pointer dans nos données.
Si je vous dis que le salaire moyen du pays des Bisounours est de 4000€. Vous pourriez me dire : ah c’est pas mal, la vie doit être belle dans ce pays.
Puis, vous apprenez que le salaire médian est de 1000€.
Heuuu… On se fait un peu avoir dans ce pays des Bisounours, non ?
Cela signifie que la moitié des Bisounours travailleurs touchent moins de 1000€.
La moyenne étant sensible aux grandes valeurs, on peut supposer qu’il y a quelques Bisounours qui ont un très grand salaire, ce qui fait monter la moyenne à 4000€
Avoir les deux indicateurs permet de mieux comprendre la situation.
Et pour aller plus loin, on pourrait regarder les indicateurs de dispersion. Mais ça sera pour une prochaine fois 😉
En attendant, on se retrouve sur LinkedIn
À bientôt ! 👋🏻
Anne-Lise.
Avant de nous quitter, j’ai un petit sondage pour vous. Merci d’avance !