Les mesures de dispersion
Un article de IMSP - Formation continue.
Tableau synoptique:
| opération | STATA | R |
|---|---|---|
| étendue | en construction | max($variable) - min($variable) ; |
| variance | en construction | var($variable) ; |
| écart-type | en construction | sd($variable) ; |
Sommaire |
L'étendue
pour une distribution donnée,
étendue = valeur maximale - valeur minimale
R
> max(test001$p1ph1) [1] 52 > min(test001$p1ph1) [1] 19 > max(test001$p1ph1) - min(test001$p1ph1) [1] 33
> max(test001$p1ph2,na.rm=T) [1] 53 > min(test001$p1ph2,na.rm=T) [1] 20 > max(test001$p1ph2,na.rm=T) - min(test001$p1ph2,na.rm=T) [1] 33
> max(test001$p1ptemp,na.rm=T) [1] 47.2 > min(test001$p1ptemp,na.rm=T) [1] 35.6 > max(test001$p1ptemp,na.rm=T) - min(test001$p1ptemp,na.rm=T) [1] 11.6
Remarquons au passage qu'une température corporelle de 47.2 oC est bien peu plausible.
STATA
en construction
La variance
La variance est le moment centré d'ordre 2.
pour une population la variance σ2 se calcule ainsi:
étant la moyenne arithmétique de la population.
Cette méthode aboutit à une estimation biaisée de la variance pour les échantillons. En conséquence, pour un échantillon, elle se calcule en soustrayant 1 du nombre d'observations n
(n − 1) est connu comme le nombre de degrés de liberté. De toute évidence, l'emploi de (n − 1) au lieu de n n'est pas très important lorsque n est très grand.
R
Quelle méthode est-elle incluse dans R? Faisons nous-mêmes le calcul de la variance de test001$p1ph1:
> themean <- mean(test001$p1ph1) ; > themean [1] 34.4 > thelength <- length(test001$p1ph1) ; # le nombre n d'observations > thelength [1] 754 > thesquaredmean <- themean * themean ; > thesquaredmean [1] 1183 > thesquaredp1ph1 <- test001$p1ph1 * test001$p1ph1 ; > thediff <- test001$p1ph1 - themean > thesquarediff <- thediff * thediff > thebiasedvariance <- (1/thelength) * sum(thesquarediff) ; # estimation "biaisée" > thebiasedvariance [1] 16.7 > theunbiasedvariance <- (1/(thelength-1))* sum(thesquarediff) ; # estimation "non biaisée" > theunbiasedvariance [1] 16.7 > var(test001$p1ph1) ; La fonction interne de R [1] 16.7
aucune différence?
> options(digits=6) > thebiasedvariance [1] 16.6902 > theunbiasedvariance [1] 16.7124 > var(test001$p1ph1) [1] 16.7124
La fonction var() R utilise donc l'estimation non biaisée de la variance avec (n − 1). Il peut être utile de s'en souvenir...
STATA
en construction
L'écart-type ou déviation standard
Il est malaisé d'opérer avec les unités (au carré) de la variance, d'une simension supérieure aux unités de l'observation. L'écart-type ou déviation standard σ est bien plus utile: c'est la racine carrée de la variance. L'écart-type peut être compris comme la moyenne quadratique des écarts à la moyenne.
C'est certainement la mesure de dispersion la plus utilisée.
R
> thesd <- sd(test001$p1ph1) > thesd [1] 4.08808 > thesd * thesd [1] 16.7124
Expérience: comment l'écart-type relatif lors de la somme d'un nombre croissant d'échantillons varie-t-il?
nous allons simuler une population foo d'effectif 10'000 avec une distribution uniforme:
foo <- runif(10000) ;
De cette population, nous nous allons tirer (avec replacement) un nombre croissant d'échantillons aléatoires (de 1 à 1000) composés chacun de 1'000 observations. Pour chaque itération, nous calculons une somme de ces échantillons (bar), la moyenne, l'écart-type et l'écart-type relatif (moyenne / écart-type) stocké dans la matrice sdratio:
N <- 1000 ;
n=seq(1,N,by=1) ;
sdratio <- matrix(nrow=N,ncol=1) ;
for (i in n) {
x <- matrix(nrow=N, ncol=i) ;
j <- seq(1,i,by=1) ;
for (col in j) {
x[,col] <- sample(foo,N, replace=TRUE) ;
}
bar <- apply(x, 1, sum) ;
sdratio[i,] <- sd(bar)/mean(bar) ;
}
(le calcul prend un peu de temps)
finalement, nous construisons un graphique qui montre l'évolution de l'écart-type relatif en fonction du nombre d'échantillons:
plot(sdratio,main="écart-type relatif pour des \n sommes d'échantillons d'effectif croissant", xlab="nombre d'échantillons", ylab="rapport sd/moyenne")
Le résultat est assez éloquent: L'écart-type de la somme d'échantillons diminue rapidement en importance en fonction du nombre d'échantillons. Observons que l'essentiel de la réduction intervient entre 1 et 100 échantillons.
Nous reviendrons plus loin sur cette distribution, très importante.
| | L'écart-type d'une somme d'échantillons varie en fonction du nombre d'échantillons. |
STATA
en construction
Écart-type et échantillonnage
L'écart-type d'un ensemble d'échantillons est inférieur à l'écart-type de la population d'origine, et dépend de l'effectif des échantillons.
L'écart interquartiles
Il s'agit de la différence entre le troisième et le premier quartiles, Q3 - Q1.
L'écart interquartiles est représenté dans le diagramme de Tukey, "boxplot" ou "boîte à moustaches" comme les limites du rectangle central. Il contient la moitié de la population.
Pour une variable qui présente une distribution normale
, le premier quartile se situe à μ − 0.67σ et le troisième quartile à μ + 0.67σ:
> qnorm(0.5) [1] 0 > qnorm(0.25) [1] -0.67449 > qnorm(0.75) [1] 0.67449
Références
Pour continuer
|
|

