Hello tout le monde 👋🏻
Les probabilités : c’est évidemment incontournable en data !
J’espère qu’on est tous d’accord là-dessus ! 😇
Dans cette 12ème édition, nous allons regarder de près ce qu’est une probabilité conditionnelle. Par exemple, la fameuse p-value (ou p-valeur) est une probabilité conditionnelle 😉
Vous imaginez bien que c’est une notion importante à comprendre.
On va directement attaquer avec un exemple.
Tableau de contingence
Imaginons une entreprise de 1000 employés, hommes et femmes, répartis comme ceci :
400 sont cadres 💻 et 600 sont techniciens 🔧.
Parmi les cadres, 280 sont des femmes 👩💻.
Parmi les techniciens, 150 sont des femmes 👩🔧.
On peut représenter cette situation par un tableau, que l’on appelle tableau de contingence.
Nous avons mis les données connues en blanc, puis nous l’avons rempli avec les données en rose.
❓Commençons simplement avec ces 3 questions :
Si nous prenons une personne au hasard de cette entreprise, quelle est la probabilité que la personne soit
une femme cadre ?
un technicien ?
un homme ?
✅ Ici, nous considérons l’entièreté des personnes de l’entreprise.
Nous avons 280 femmes cadres sur les 1000 employés. La probabilité de choisir une femme cadre est donc de 280/1000
Il y a 600 techniciens, nous avons donc une probabilité de 600/1000 de choisir un technicien
D’après le tableau, il y a 570 hommes. La probabilité de choisir un homme est de 570/1000.
Jusqu’ici tout va bien, non ?
Ce n’est pas très compliqué.
Probabilité conditionnelle
❓ Continuons avec cette question :
Nous avons choisi une personne au hasard, c’est une femme.
Quelle est la probabilité que cette personne soit cadre ?
Voilà la probabilité conditionnelle qui arrive ! 🦸🏻♀️
Ici, nous nous restreignons au cas où la personne est une femme. Nous avons une condition !
D’après le tableau, il y a 280 cadres parmi les 430 femmes. La probabilité que cette femme soit cadre est donc de 280/430
👉🏻 La probabilité conditionnelle est une probabilité d’un évènement sachant un autre évènement.
C’est comme si nous prenions un “univers” plus petit.
Pour rappel, le terme univers en probabilité signifie : l’ensemble de tous les résultats possibles. Ici, c’est l’ensemble des personnes de l’entreprise.
Avec la probabilité conditionnelle, on délimite un “univers” plus petit, celui des personnes de l’entreprise qui sont des femmes. On raisonne donc avec 430 personnes au lieu des 1000 personnes.
Vérifions que vous avez compris ! 😏
Nous avons choisi une personne au hasard, c’est un technicien.
Quelle est la probabilité que cette personne soit une femme ?
Il y a 600 techniciens. Et 150 de ces techniciens sont des femmes.
La probabilité que le technicien choisi soit une femme est donc de 150/600
Vous aviez trouvé ?
Le tableau de contingence, peut être vraiment utile !
Mais nous pouvons aussi représenter autrement cette situation. 👇🏻
Arbre de probabilité 🌳
L’arbre de probabilité est une autre manière de modéliser ce qu’il se passe :
Ici, chaque branche arrive sur un évènement et porte la probabilité que cet évènement se passe.
Mais attention !
Après un premier évènement, la probabilité est une probabilité conditionnelle !
Et oui ! Car on sait déjà qu’un premier évènement s’est passé. La suite est donc “conditionnée” par ce premier évènement.
Par exemple, pour la première branche la personne est un technicien. 🔧 La deuxième branche mène à l’évènement “c’est une femme” 👩🏻 avec une probabilité que la personne soit une femme sachant que c’est un technicien.
Je ne vous l’ai pas encore dit, mais il y a deux manières d’écrire une probabilité conditionnelle, en maths :
Regardons la probabilité que la personne choisie soit un technicien homme. On se situe au bout des branches : technicien → homme
La fin de branches qui se suivent est une intersection de plusieurs évènements (technicien ET homme).
La formule mathématique pour calculer cette probabilité est :
P( technicien et homme ) = P( technicien ) x P ( homme | technicien )
On commence par la probabilité que ce soit un technicien puis on la multiplie par la probabilité que cela soit un homme (mais) SACHANT que c’est un technicien !
Pourquoi ? Parce que ces deux évènements ne sont pas indépendants l’un de l’autre. Le fait que la personne soit un technicien impacte la probabilité qu’elle soit un homme ou une femme, tout simplement car les proportions d’hommes et de femme ne sont pas égales.
Ce qui nous amène à la notion d’indépendance 👇🏻
Indépendance
🪙 Prenons l’exemple d’un lancer de pièce. Je lance 2 fois une pièce.
Je peux avoir Face (F) ou Pile (P).
Pouvez-vous visualiser l’arbre de probabilité représentant cette expérience ? (ou même le dessiner si vous avez un feuille à proximité !)
Le voici 👇🏻
Ici, le fait d’avoir face ou pile au premier lancer ne change rien au second lancer. Avoir face ou avoir pile sont des évènements indépendants.
Dans ce cas, il n’y a pas vraiment de probabilités conditionnelles, dans le sens où les conditions ne changent rien. Ainsi : la probabilité d’avoir F puis pile est p(F) x p(P)
Car P(P|F) = P(P)
De manière générale, si A et B sont indépendants alors P(A et B) = P(A) x P(B).
Tu te sens un peu perdu ?
👉🏻 Si tu as besoin d’être accompagné en maths pour ta reconversion en data, tu trouveras toutes les infos de mes offres sur mon site maprofdemaths.com 😉
Inversion des conditions
Revenons à notre histoire d’employés. Je vous ai montré cet arbre pondéré représentant la situation 👇🏻
Mais j’aurais pu le faire autrement :
Ces deux arbres représentent la même situation mais avec des conditions initiales différentes. Dans le premier, on commence par savoir si c’est un technicien ou un cadre puis si c’est une femme ou un homme. Dans le second, c’est l’inverse.
Parfois, les probabilités que nous avons, ne nous permettent de construire qu’un seul des deux arbres. Alors, comment en déduire les probabilités de l’autre arbre ?
Je vous montre un autre exemple pour que vous puissiez y réfléchir.
Voilà ce que l’on sait 👇🏻
Maintenant, je veux savoir la probabilité d’être malade sachant que mon test est positif.
Et bien, ça sera pour une prochaine fois ! 😇 (ouuh c’est vilain de ma part !)
Un indice : effectivement, la formule de Bayes va nous être utile 😉
P-value
Avant de se quitter, un petit mot sur la p-value. Si vous l’avez déjà croisée avec les tests statistiques, il ne faut pas penser que la p-value est la probabilité que l’hypothèse nulle soit vraie. NON ! La p-value c’est une probabilité conditionnelle. C’est la probabilité d’avoir nos données (ou pire) en supposant que l’hypothèse nulle est vraie.
Sur ce, je vous laisse, et à bientôt 👋🏻
Très instructif. Merci