Loi normale

Un article de IMSP - Formation continue.

synonymes: loi ou courbe de Gauss

C'est l'une des lois les plus importantes en statistique car elle constitue une bonne approximation des caractéristiques de nombreux phénomènes physiques et des processus stochastiques. De nombreux tests et modèles reposent sur des hypothèses faisant appel à des lois normales, notamment dans l'estimation d'erreur, et leur robustesse vis à vis de la non normalité des données peut varier. Il est toujours important de vérifier cette condition.

Sommaire

Propriétés

Définition

Image:Fiat_lux.png La courbe de Gauss est complètement définie par sa moyenne μ et son écart-type σ. Elle est notée  \mathcal{N}(\mu, \sigma)

densité de probabilité y = f(x) = \frac1{\sigma\sqrt{2\pi}}\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right)

ou (version R):

y = 1/(sqrt(2 pi) sigma) e^-((x - mu)^2/(2 sigma^2))
  • la loi normale est symétrique: la moyenne est égale à la médiane
  • 50% de l'effectif se trouve de part et d'autre de la moyenne.
  • Le mode correspond à la moyenne et à la médiane
  • 68,26% de l'effectif se trouve entre -1 et +1 écart-type de la moyenne
  • 90 % de l'effectif se trouvee entre + 1,65 et –1,65 écart-type de la moyenne
  • 95% de l'effectif se situe entre -1.96 et +1.96 écart-type de la moyenne
  • 95.45% de l'effectif se trouve entre -2 et +2 écart-type de la moyenne
  • 4.55% de l'effectif se trouve au-delà de -2 et +2 écart-type de la moyenne.
  • 99 % de l'effectif se trouve entre + 2.58 et –2.58 écart-type de la moyenne
Quelques caractéristiques de la loi normale. Source: [1]
Quelques caractéristiques de la loi normale. Source: [1]

Loi normale centrée réduite

Image:Fiat_lux.png La loi normale centrée réduite est la loi normale  \mathcal{N}(\mbox{0, 1}) de moyenne 0 et d'écart-type 1


  • L'intégrale de la loi normale centrée réduite (aire sous la courbe) est égale à 1 (100%)

Stabilité par la somme

La somme de deux variables gaussiennes indépendantes est elle-même une variable gaussienne.


Image:Piege.png Ne pas confondre somme de variables aléatoires indépendantes et mélange de populations!

Théorème central de la limite (central limit) et erreur standard

Des nombreux énoncés possibles de ce théorème essentiel on retiendra :

Etant donné une population ayant une moyenne μ et une variance σ2, la distribution d’échantillonnage de la moyenne aura une moyenne égale à μ et une variance égale à \frac{\sigma^2}{N}. La distribution s’approchera de la distribution normale à mesure que N, l’effectif d’échantillon, augmente.[2]

Dans le détail:

  • La moyenne d’un très grand nombre de moyennes d’échantillon tend vers la moyenne de la population
  • La variance d’un très grand nombre de moyennes d’échantillon tend vers la variance de la population divisée par l’effectif N des échantillons

\sigma_{\overline{X}}^2 \approx \frac{\sigma^2}{N}

et par conséquent l'écart-type de cett distribution est de:

\sigma_{\overline{X}} \approx \frac{\sigma}{\sqrt{N}}

Le théorème confirme selon laquelle l'observation empirique selon laquelle la variabilité entre des échantillons répétés d’une même population diminue à mesure que la taille de l’échantillon augmente.

l’écart-type des moyennes d’échantillons {\sigma}_{\overline{X}} est appelé « erreur standard » pour souligner le fait qu’il représente l’erreur d’échantillonnage de la moyenne.

Image:Attention.png erreur standard = \frac{\sigma}{\sqrt{N}}
  • Sous condition d'un effectif N d'échantillonnage aléatoire suffisamment élevé, nous pouvons calculer les probabilités avec des formules liées à la loi normale, et ceci quelle que soit la distribution sous-jacente dans la population.
  • L'écart-type que nous allons employer dans ces formules ne sera plus celui de la distribution de la population (σ, mais celui de la distribution d'échantillonnage de la moyenne: c'est l'erreur standard \frac{\sigma}{\sqrt{N}}


Autre formulation possible:

La somme de n variables indépendantes suivant une même loi d'espérance (moyenne) μ et de variance σ2 déterminées tend vers une distribution normale lorsque le nombre n est très grand.

Considérons la somme Sn = X1 + X2 + ... + Xn

  • L'espérance (moyenne) de Sn est nμ
  • son écart-type vaut \sigma \sqrt{n}.

La loi de Sn tend vers la loi normale  \mathcal{N}(n \mu, \sigma^2 n) quand n tend vers l'infini.


Image:Fiat_lux.png En d'autres termes, la somme d'un grand nombre d'échantillons aléatoires prelevés dans une population donnée tend vers une distribution normale, et ceci même si la distribution de la population source dans laquelle ils sont prélevés ne suit pas une loi normale.

R

Les fonctions en rapport à la loi normale

dnorm() ou la fonction de densité

par défaut, sans autre précision, dnorm calcule la fonction de densité de la loi normale de moyenne 0 et d'écart-type 1 c'est à dire la loi normale centrée réduite.

dnorm(x, mean=0, sd=1, log = FALSE) ;

dnorm() est nous donne la densité de probabilités ou fonction de masse de toute loi normale dont on préciséra la moyenne et l'écart-type

curve(dnorm(x), xlim=c(-3,3), col='red', lwd=3) ;
title(main='loi normale') ;
abline(v=1, col='black', lwd=1, lty=3) ;
abline(v=-1, col='black', lwd=1, lty=3) ;
abline(v=-2, col='black', lwd=1, lty=3) ;
abline(v=2, col='black', lwd=1, lty=3) ;

La fonction peut être utilisée par exemple pour tracer des lois normales de référence sur les histogrammes des variables (voir Analyse_graphique_avec_R_et_STATA#R_2)

Fonction de densité de la loi normale centrée réduite
Fonction de densité de la loi normale centrée réduite

pnorm() ou la fonction de distribution cumulative

pnorm() calcule la probabilité qu'un nombre aléatoire de distribution normale soit inférieur à la valeur donnée. La fonction accepte les mêmes arguments que dnorm()

> pnorm(1.96) ;
[1] 0.975
> pnorm(1) ;
[1] 0.841

fonction de distribution cumulative de la loi normale centrée réduite de -3 à +3:

plot(function(x) pnorm(x),-3,3) ;
abline(v=0,col='red',lty=2) ;
abline(h=0,col='red',lty=2) ;

qnorm() ou la fonction de quantiles

qnorm(), appelée la fonction quantiles, est l'inverse de dnorm(): pour une probabilité donnée la fonction retourne la valeur dans la distribution cumulative qui correspond à cette probabilité, soit (dans le cas de la loi normale centrée réduite) son z-score

  qnorm(0.025)
[1] -1.96
  qnorm(0.975)
[1] 1.96
  qnorm(0.841)
[1] 0.999

fonction y=qnorm(x) pour des valeurs de 0 à 1:

plot(function(x) qnorm(x),0,1) ;
abline(v=0.5,col='red',lty=2) ;
abline(h=0,col='red',lty=2) ;

rnorm()

rnorm() génère des nombres aléatoires dont la distribution suit une loi normale. Cette fonction a été employée à plusieurs reprises dans les démostrations.

plot(density(rnorm(1000))) ;
curve(dnorm(x), xlim=c(-4,4), col='red', add=T) ; # loi normale pour référence

Démostration du théorème central de la limite

Nous reprenons ici une démostration classique basée sur le code R de Vincent Zoonekynd:

Créons une population de 10'000 nombres avec une distribution uniforme sur l'intervalle de 0 à 1:

foo <- runif(10000) ; 
plot(foo) ;

Par définition notre population devrait avoir pour moyenne et médiane \frac{max - min}{2} soit (1 - 0)/2 = 0.5

Vérifions:

> mean(foo)
[1] 0.498
> median(foo)
[1] 0.499
> sd(foo)
[1] 0.289

Nous ne sommes pas très loin.

Observons l'histogramme et la courbe de densité:

Prenons un échantillon aléatoire de 1000 mesures dans cette population. Le tirage se fait typiquement avec replacement :

> ?sample
> bar <- sample(foo,1000,replace=TRUE) ;
> plot(density(bar))
> lines(density(foo),col='red')

la courbe de densité de cet échantillon unique n'est pas très différente de celle de la population d'origine (en rouge).

Nous allons répéter cet échantillonage et observer ce qu'il arrive à la somme des distributions:

option(scipen=1000) ;
opton(digits=3) ;
op <- par(mfrow=c(2,2)) ; # division du dispositif graphique en 4
mu <- mean(foo) ;         # moyenne de la population
sigma <- sd (foo) ;       # écart-type de la population
N <- 1000 ;               # on veut des échantillons aléatoires de 1000 mesures
n=c(1,2,5,60) ;           # échantillonage répétés n (1,2,5 et 60) fois

for (i in n)  
     {
      x <- matrix(nrow=N, ncol=i) ; # on crée une matrice 
      j <- seq(1,i,by=1) ;
      for (col in j) {
                       x[,col] <- sample(foo,N,replace=TRUE) ; # un échantillon par colonne
                      }
      bar <- ( apply(x, 1, sum) - i*mu )/(sqrt(i)*sigma) ;  # centrer et réduire (!!)

      sha <- signif(shapiro.test(bar)$p.value,digits=3) ; # test de Shapiro-Wilk

      hist(bar, col='white', probability=T, main=paste("n =",i),
         xlim=c(-3,3), ylim=c(0,max(.4, density(bar)$y)), 
         xlab=paste("Shapiro-Wilk p:",sha) ,ylab="densité", 
         breaks=12) ;  # histogramme de la somme des échantillons

      lines(density(bar), col='red', lwd=2) ; # courbe de densité
                                              # de la somme des échantillons

      curve(dnorm(x,mean=mean(bar),sd=sd(bar)),add=TRUE, 
        col='blue',lwd=2,lty=4) ;  # loi normale de référence, en bleu   
      }

par(op) ;

L'histogramme et la courbe rouge correspondent à la somme des échantillons, l'histogramme en pointillé bleu représente la fonction de densité de la loi normale. Pour des fins de démostration les différentes distributions ont été rapportées à la loi normale centrée réduite.

On constate que plus l'effectif des échantillonnages aléatoires augmente, plus la distribution de leur somme tend vers une loi normale. Observer l'évolution de la probabilité p du test de normalité de Shapiro-Wilk, avec 60 échantillonnages l'hypothèse nulle (la distribution ne diffère pas d'une loi normale) ne peut plus être rejetée au seuil de p=0.05.

La même démostration peut être conduite avec différentes distributions. Voir [3] et, pour une démostration interactive en ligne, [4]

STATA

en construction

Références

Pour continuer

Notions de base

  • Introduction
  1. Pourquoi R?
  2. Prise en main de R
  • Statistiques descriptives en pratique
  1. Analyse préliminaire avec R et STATA
  2. Analyse graphique avec R et STATA
  3. Préparation des données
  4. Automatiser le traitement des données
  5. Tabulations
  • Caractérisation des observations
  1. Les mesures de tendance centrale
  2. Les mesures de dispersion
  3. Tests de normalité
  4. Loi normale
  5. Les scores
  1. Intervalles de confiance
  2. La distribution de Khi-deux
  3. La distribution de Student
  4. Hypothèses et types d'erreur
  5. Valeurs de p
  6. Comparer deux moyennes
  7. Mesures appariées
  • Épidémiologie
  1. Les mesures de fréquence en épidémiologie
  2. Risque Relatif et Odds Ratio avec intervalles de confiance
  3. Test de khi-carré pour une table 2 x 2
  4. Test exact de Fisher
  5. Examens de dépistage, sensibilité, spécificité, valeur prédictive
  6. Mesures d'impact pour une exposition
  7. Épidémiologie des maladies transmissibles
  8. Confusion et modification d'effet
  9. Les types d'études
  10. Courbes de survie