LUGS Mailingliste

Lugs Penguin Logo
LUGS - die Mailingliste
Statistik

LUGS
Über die LUGS
Statuten und Protokolle
Sektionen
Terminliste
IRC
Mailinglisten
Kontaktadressen
Mitglied werden
Internes
Mitgliederliste

LINUX

Was ist Linux?
Screenshots
Distributionen
kmLinux
Firmen
Ressourcen

LIB

Dokumentation
Events
Projekte
Vorträge

Allgemeines

ChangeLog
Sprache
Galerie

Motivation

In letzter Zeit (Jahreswechsel 98-99) haben einige Leute über zunehmenden Verkehr auf der Lugs-Liste gemeckert. Neil hat dazu ein Email (<199902071616.RAA00666@chonsp.franklin.ch>) geschrieben und da ein paar Zahlen geschickt, leider sind seine statistischen Analyse-Methoden nicht so ausgefeilt. Ich möchte hier eine tiefergehende Analyse bieten.
Zahlen

Ich habe diese Zahlen hier verwendet, es sind nicht die von Neil. Es sind die Grössen (in Bytes) der Dateien, die als Ausgangs-Material für das Archiv der Liste dienen.

1996 1997 1998

Monat Grösse

1

2

3

4

5

6

7

8

9

10

11 602233

12 345798

Monat Grösse

1 554377

2 396518

3 820006

4 545071

5 660066

6 464273

7 660025

8 396322

9 562131

10 801793

11 723821

12 771723

Monat Grösse

1 936287

2 705023

3 695199

4 1070003

5 947468

6 859563

7 1825356

8 1237781

9 1424154

10 1524244

11 1516101

12 2085884

Die beiden Zahlen aus dem Jahr 1996 sind aus dem Mail von Neil, da das Archiv erst 1997 anfängt.
Analyse

Ich habe für die Analyse die Statistik-Software R benutzt. R ist dem bekannten S-PLUS nachempfunden.
Ein einfacher Scatter-Plot der Daten zeigt, dass es sich um ein exponentielles Ansteigen handeln könnte. Der Plot der logarithmierten Daten zeigt ein schöneres lineares Ansteigen.
> plot(linux, main="LUGS Mailing-Liste Nov. 96 bis Dez. 98") > plot(log(linux), main="LUGS Mailing-Liste Nov. 96 bis Dez. 98, logarithmiert")

Die Plots (zwei Bilder à ca. 4kB).
Da lässt sich nun natürlich Regression mit den Daten machen. (Ich versuche also mit der Methode der kleinsten Fehlerquadrate eine Gerade durch die Punkte zu legen.)
Zuerst mit den rohen Daten:
> id _ 1:26 > summary(lm(linux ~ id)) Call: lm(formula = linux ~ id) Residuals: Min 1Q Median 3Q Max -368043 -150150 -17738 85411 576293 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 220139 103153 2.134 0.0433 * id 49594 6679 7.425 1.15e-07 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 255400 on 24 degrees of freedom Multiple R-Squared: 0.6967, Adjusted R-squared: 0.6841 F-statistic: 55.13 on 1 and 24 degrees of freedom, p-value: 1.151e-07

Die Nullhypothese der lineare Regression lautet: "es gibt keinen linearen Zusammenhang zwischen id und linux". Diese Nullhypothese kann mit hoher statistischer Signifikanz verworfen werden.
Das Resultat der Regression auf den transformierten Daten ist analog:
> summary(lm(log(linux) ~ id)) Call: lm(formula = log(linux) ~ id) Residuals: Min 1Q Median 3Q Max -0.50823 -0.20573 0.02685 0.08872 0.48713 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.861670 0.100016 128.596 < 2e-16 *** id 0.053654 0.006476 8.285 1.69e-08 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 0.2477 on 24 degrees of freedom Multiple R-Squared: 0.7409, Adjusted R-squared: 0.7301 F-statistic: 68.64 on 1 and 24 degrees of freedom, p-value: 1.69e-08

Der wichtige Unterschied zwischen diesen beiden Resultaten ist allerdings, dass im transformierten Modell R² grösser ist. R² gibt den Anteil der Gesamtvariabilität an, der durch die Regression erklärt wird. Dh. das transformierte Modell ist besser, da R² grösser ist.
Schauen wir uns das graphisch an:
> plot(linux, main="LUGS Mailing-Liste Nov. 96 bis Dez. 98") > abline(linux.linear) > plot(linux, main="LUGS Mailing-Liste Nov. 96 bis Dez. 98, transformiert") > lines(id, exp(12.861670)*exp(0.053654*id))

Die Plots (zwei Bilder à ca. 4kB).
Schlussfolgerungen

Die statistische Analyse von oben zeigt, dass das Volumen auf der Liste über die letzen zwei Jahre tatsächlich gewachsen ist :-). Sie ermöglicht es aber auch, ein Abschätzung des weiteren Wachstums zu geben. Die Unsicherheit wird zwar immer grösser, je weiter entfernt die Schätzung liegt, aber berechnen lässt sich ja vieles:

Wann rohe Daten transformierte
Daten

Dez. 1999 2104711 2959474

Dez. 2000 2699839 5634224

Die Regression der rohen Daten berechnet, dass das Volumen jeden Monat um etwa 50kB zunimmt. Die Regression auf den transformierten Daten berechnet, dass sich das Volumen alle 13 Monate verdoppelt.
Na dann Prost.

LUGS - die Mailingliste Statistik

Motivation

Zahlen

Analyse

Schlussfolgerungen

LUGS - die Mailingliste
Statistik