Les mesures de dispersion

Un article de IMSP - Formation continue.

Tableau synoptique:

opération STATA R
étendue en construction max($variable) - min($variable) ;
variance en construction var($variable) ;
écart-type en construction sd($variable) ;


Sommaire

L'étendue

pour une distribution donnée,

étendue = valeur maximale - valeur minimale


R

> max(test001$p1ph1)
[1] 52
> min(test001$p1ph1)
[1] 19
> max(test001$p1ph1) - min(test001$p1ph1)
[1] 33
  
> max(test001$p1ph2,na.rm=T)
[1] 53
> min(test001$p1ph2,na.rm=T)
[1] 20
> max(test001$p1ph2,na.rm=T) - min(test001$p1ph2,na.rm=T)
[1] 33


> max(test001$p1ptemp,na.rm=T)
[1] 47.2
> min(test001$p1ptemp,na.rm=T)
[1] 35.6
> max(test001$p1ptemp,na.rm=T) - min(test001$p1ptemp,na.rm=T)
[1] 11.6

Remarquons au passage qu'une température corporelle de 47.2 oC est bien peu plausible.

STATA

en construction

La variance

La variance est le moment centré d'ordre 2.

pour une population la variance σ2 se calcule ainsi:

\sigma^2 = \frac 1N \sum_{i=1}^N
 \left(x_i - \overline{x} \right)^ 2  = \frac{\sum_{i=1}^N
 \left(x_i - \overline{x} \right)^ 2}{N}

\overline{x} étant la moyenne arithmétique de la population. Cette méthode aboutit à une estimation biaisée de la variance pour les échantillons. En conséquence, pour un échantillon, elle se calcule en soustrayant 1 du nombre d'observations n

\sigma^2 = \frac {1}{(n-1)} \sum_{i=1}^n
 \left(x_i - \overline{x} \right)^ 2  = \frac{\sum_{i=1}^n
 \left(x_i - \overline{x} \right)^ 2}{n - 1}

(n − 1) est connu comme le nombre de degrés de liberté. De toute évidence, l'emploi de (n − 1) au lieu de n n'est pas très important lorsque n est très grand.

R

Quelle méthode est-elle incluse dans R? Faisons nous-mêmes le calcul de la variance de test001$p1ph1:

> themean <- mean(test001$p1ph1) ;
> themean
[1] 34.4
> thelength <- length(test001$p1ph1) ; # le nombre n d'observations 
> thelength
[1] 754
> thesquaredmean <- themean * themean ;
> thesquaredmean
[1] 1183
> thesquaredp1ph1 <- test001$p1ph1 * test001$p1ph1 ;
> thediff <- test001$p1ph1 - themean
> thesquarediff <- thediff * thediff
> thebiasedvariance <- (1/thelength) * sum(thesquarediff) ; # estimation "biaisée"
> thebiasedvariance
[1] 16.7
> theunbiasedvariance <- (1/(thelength-1))* sum(thesquarediff) ; # estimation "non biaisée"
> theunbiasedvariance
[1] 16.7
> var(test001$p1ph1) ; La fonction interne de R
[1] 16.7

aucune différence?

> options(digits=6)
> thebiasedvariance
[1] 16.6902
> theunbiasedvariance
[1] 16.7124
> var(test001$p1ph1)
[1] 16.7124

La fonction var() R utilise donc l'estimation non biaisée de la variance avec (n − 1). Il peut être utile de s'en souvenir...

STATA

en construction

L'écart-type ou déviation standard

Il est malaisé d'opérer avec les unités (au carré) de la variance, d'une simension supérieure aux unités de l'observation. L'écart-type ou déviation standard σ est bien plus utile: c'est la racine carrée de la variance. L'écart-type peut être compris comme la moyenne quadratique des écarts à la moyenne.

\sigma = \sqrt{\sigma^ 2}  = \sqrt{\frac{\sum_{i=1}^n
 \left(x_i - \overline{x} \right)^ 2}{n - 1}}

C'est certainement la mesure de dispersion la plus utilisée.

R

> thesd <- sd(test001$p1ph1)
> thesd
[1] 4.08808
> thesd * thesd
[1] 16.7124

Expérience: comment l'écart-type relatif lors de la somme d'un nombre croissant d'échantillons varie-t-il?

nous allons simuler une population foo d'effectif 10'000 avec une distribution uniforme:

foo <- runif(10000) ;

De cette population, nous nous allons tirer (avec replacement) un nombre croissant d'échantillons aléatoires (de 1 à 1000) composés chacun de 1'000 observations. Pour chaque itération, nous calculons une somme de ces échantillons (bar), la moyenne, l'écart-type et l'écart-type relatif (moyenne / écart-type) stocké dans la matrice sdratio:

N <- 1000 ;
n=seq(1,N,by=1) ;
sdratio <- matrix(nrow=N,ncol=1) ;
for (i in n)  {
                  x <- matrix(nrow=N, ncol=i) ;
                   j <- seq(1,i,by=1) ;
                   for (col in j) {
                                       x[,col] <- sample(foo,N, replace=TRUE) ;
                                       }
                    bar <-  apply(x, 1, sum) ;
                    sdratio[i,] <- sd(bar)/mean(bar) ;
                   }

(le calcul prend un peu de temps)

finalement, nous construisons un graphique qui montre l'évolution de l'écart-type relatif en fonction du nombre d'échantillons:

plot(sdratio,main="écart-type relatif pour des \n sommes d'échantillons 
d'effectif croissant", xlab="nombre d'échantillons", ylab="rapport sd/moyenne")

Le résultat est assez éloquent: L'écart-type de la somme d'échantillons diminue rapidement en importance en fonction du nombre d'échantillons. Observons que l'essentiel de la réduction intervient entre 1 et 100 échantillons.

Nous reviendrons plus loin sur cette distribution, très importante.

Image:fiat_lux.png L'écart-type d'une somme d'échantillons varie en fonction du nombre d'échantillons.

STATA

en construction

Écart-type et échantillonnage

L'écart-type d'un ensemble d'échantillons est inférieur à l'écart-type de la population d'origine, et dépend de l'effectif des échantillons.

L'écart interquartiles

Il s'agit de la différence entre le troisième et le premier quartiles, Q3 - Q1.

L'écart interquartiles est représenté dans le diagramme de Tukey, "boxplot" ou "boîte à moustaches" comme les limites du rectangle central. Il contient la moitié de la population.

Pour une variable qui présente une distribution normale \mathcal{N}(\mu,\sigma), le premier quartile se situe à μ − 0.67σ et le troisième quartile à μ + 0.67σ:

> qnorm(0.5)
[1] 0
> qnorm(0.25)
[1] -0.67449
> qnorm(0.75)
[1] 0.67449

Références

Pour continuer

Notions de base

  • Introduction
  1. Pourquoi R?
  2. Prise en main de R
  • Statistiques descriptives en pratique
  1. Analyse préliminaire avec R et STATA
  2. Analyse graphique avec R et STATA
  3. Préparation des données
  4. Automatiser le traitement des données
  5. Tabulations
  • Caractérisation des observations
  1. Les mesures de tendance centrale
  2. Les mesures de dispersion
  3. Tests de normalité
  4. Loi normale
  5. Les scores
  1. Intervalles de confiance
  2. La distribution de Khi-deux
  3. La distribution de Student
  4. Hypothèses et types d'erreur
  5. Valeurs de p
  6. Comparer deux moyennes
  7. Mesures appariées
  • Épidémiologie
  1. Les mesures de fréquence en épidémiologie
  2. Risque Relatif et Odds Ratio avec intervalles de confiance
  3. Test de khi-carré pour une table 2 x 2
  4. Test exact de Fisher
  5. Examens de dépistage, sensibilité, spécificité, valeur prédictive
  6. Mesures d'impact pour une exposition
  7. Épidémiologie des maladies transmissibles
  8. Confusion et modification d'effet
  9. Les types d'études
  10. Courbes de survie