Motivation
In letzter Zeit (Jahreswechsel 98-99) haben einige Leute über
zunehmenden Verkehr auf der Lugs-Liste
gemeckert. Neil hat dazu ein Email
(<199902071616.RAA00666@chonsp.franklin.ch>) geschrieben und da
ein paar Zahlen geschickt, leider sind seine statistischen
Analyse-Methoden nicht so ausgefeilt. Ich möchte hier eine
tiefergehende Analyse bieten.
Zahlen
Ich habe diese Zahlen hier verwendet, es sind nicht die von
Neil. Es sind die Grössen (in Bytes) der Dateien, die als
Ausgangs-Material für das Archiv
der Liste dienen.
1996 | 1997 | 1998 |
Monat | Grösse |
1 | |
2 | |
3 | |
4 | |
5 | |
6 | |
7 | |
8 | |
9 | |
10 | |
11 | 602233 |
12 | 345798 |
|
Monat | Grösse |
1 | 554377 |
2 | 396518 |
3 | 820006 |
4 | 545071 |
5 | 660066 |
6 | 464273 |
7 | 660025 |
8 | 396322 |
9 | 562131 |
10 | 801793 |
11 | 723821 |
12 | 771723 |
|
Monat | Grösse |
1 | 936287 |
2 | 705023 |
3 | 695199 |
4 | 1070003 |
5 | 947468 |
6 | 859563 |
7 | 1825356 |
8 | 1237781 |
9 | 1424154 |
10 | 1524244 |
11 | 1516101 |
12 | 2085884 |
|
Die beiden Zahlen aus dem Jahr 1996 sind aus dem Mail von Neil, da
das Archiv erst 1997 anfängt.
Analyse
Ich habe für die Analyse die Statistik-Software R benutzt. R
ist dem bekannten S-PLUS nachempfunden.
Ein einfacher Scatter-Plot der Daten zeigt, dass es sich um ein
exponentielles Ansteigen handeln könnte. Der Plot der
logarithmierten Daten zeigt ein schöneres lineares Ansteigen.
> plot(linux, main="LUGS Mailing-Liste Nov. 96 bis Dez. 98")
> plot(log(linux),
main="LUGS Mailing-Liste Nov. 96 bis Dez. 98, logarithmiert")
Die Plots (zwei Bilder à ca. 4kB).
Da lässt sich nun natürlich Regression mit den Daten machen. (Ich
versuche also mit der Methode der kleinsten Fehlerquadrate eine Gerade
durch die Punkte zu legen.)
Zuerst mit den rohen Daten:
> id _ 1:26
> summary(lm(linux ~ id))
Call:
lm(formula = linux ~ id)
Residuals:
Min 1Q Median 3Q Max
-368043 -150150 -17738 85411 576293
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 220139 103153 2.134 0.0433 *
id 49594 6679 7.425 1.15e-07 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05
`.' 0.1 ` ' 1
Residual standard error: 255400 on 24 degrees of freedom
Multiple R-Squared: 0.6967, Adjusted R-squared: 0.6841
F-statistic: 55.13 on 1 and 24 degrees of freedom,
p-value: 1.151e-07
Die Nullhypothese der lineare Regression lautet: "es gibt keinen
linearen Zusammenhang zwischen id und linux". Diese Nullhypothese kann
mit hoher statistischer Signifikanz verworfen werden.
Das Resultat der Regression auf den transformierten Daten ist
analog:
> summary(lm(log(linux) ~ id))
Call:
lm(formula = log(linux) ~ id)
Residuals:
Min 1Q Median 3Q Max
-0.50823 -0.20573 0.02685 0.08872 0.48713
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12.861670 0.100016 128.596 < 2e-16 ***
id 0.053654 0.006476 8.285 1.69e-08 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05
`.' 0.1 ` ' 1
Residual standard error: 0.2477 on 24 degrees of freedom
Multiple R-Squared: 0.7409, Adjusted R-squared: 0.7301
F-statistic: 68.64 on 1 and 24 degrees of freedom,
p-value: 1.69e-08
Der wichtige Unterschied zwischen diesen beiden Resultaten ist
allerdings, dass im transformierten Modell R2 grösser
ist. R2 gibt den Anteil der Gesamtvariabilität an, der
durch die Regression erklärt wird. Dh. das transformierte Modell ist
besser, da R2 grösser ist.
Schauen wir uns das graphisch an:
> plot(linux, main="LUGS Mailing-Liste Nov. 96 bis Dez. 98")
> abline(linux.linear)
> plot(linux,
main="LUGS Mailing-Liste Nov. 96 bis Dez. 98, transformiert")
> lines(id, exp(12.861670)*exp(0.053654*id))
Die Plots (zwei Bilder à ca. 4kB).
Schlussfolgerungen
Die statistische Analyse von oben zeigt, dass das Volumen auf der
Liste über die letzen zwei Jahre tatsächlich gewachsen ist :-). Sie
ermöglicht es aber auch, ein Abschätzung des weiteren Wachstums zu
geben. Die Unsicherheit wird zwar immer grösser, je weiter entfernt
die Schätzung liegt, aber berechnen lässt sich ja
vieles:
Wann | rohe Daten | transformierte Daten |
Dez. 1999 | 2104711 | 2959474 |
Dez. 2000 | 2699839 | 5634224 |
Die Regression der rohen Daten berechnet, dass das Volumen jeden
Monat um etwa 50kB zunimmt. Die Regression auf den transformierten
Daten berechnet, dass sich das Volumen alle 13 Monate
verdoppelt.
Na dann Prost.
|