site navigation


Einführung in die Statistik

in Stichworten

Inhalt:
    Deskriptive Statistik 
    Wahrscheinlichkeitstheorie 
    Stetige Verteilungen 
    Schätztheorie
    Test-Theorie

Deskriptive Statistik ordnet, gruppiert und konzentriert Daten
Induktive Statistik schließt aus beobachteten Daten auf verborgene Strukturen


Deskriptive Statistik
Bei Datensammlungen werden Merkmale einer Stichprobe aus einer Grundgesamtheit erhoben, die Merkmale haben Ausprägungen,
Ausprägungen können nominal (z.B. Farben), ordinal (z.B. Schulnoten) oder kardinal (z.B. Temperatur) skaliert sein.
Ein Merkmal X ist eine Ausbildung der Elemente einer Grundgesamtheit in einem Merkmalsraum, x=X(e) ist die Ausprägung von X beim Element e. Je nach Meßvorschrift sind Merkmale stetig oder diskret, nominal, ordinal oder kardinal.
wenn X ein diskretes Merkmal ist, dann sind
a_j                             die möglichen Realisationen
x_i = X(e_i)            die individuellen Realisationen
h(a_j) = h_j            die absolute Häufigkeit der Ausprägung a_j .
sum_j h(a_j) = n   die Summe aller Ausprägungen entspricht der Größe der Stichprobe
f(a_j) = h(a_j)/n   die relative Häufigkeit

Sind die Ausprägungen chronologisch geordnet, so nennt man das eine Zeitreihe


Häufigkeiten lassen sich in Balken- oder Kreisdiagrammen veranschaulichen
Eine flächentreue Häufigkeitsarstellung gruppierter Daten heißt Histogramm, die Breite ist gleich der Gruppenbreite, die Höhe ergibt sich aus h_j/b_j


Die Summenkurve H(x) ist die Anzahl der Beobachtungen, deren Ausprägungen die Zahl x nicht übertreffen
dabei bedeutet:
 
höchstens x H(x)
alle größer x n - H(x)
größer x1, kleiner gleich x2 H(x2) - H(x1)
genau gleich x h(x)
kleiner x H(x) - h(x)
mindestens x n - (H(x) - h(x))


 die empirische Verteilungsfunktion ist die normierte (durch n geteilte) Summenkurve. Sie enthält dieselbe Information wie das Histogramm und umgekehrt.  F(x) = sum_(a_i < x) h(a_i)/n
Aus der Verteilungsfunktion lassen sich die Quantile bestimmen, für eine Zahl alpha ist das untere alpha-Quantil = t_alpha die Zahl, für die F(t_alpha) = alpha gilt. Das obere ist dann t_1-alpha. (spezielle Quantile sind unteres/oberes Quartil (0.25/0.75) und Median (0.5)


Aus den 5 Werten Minimum x(1), unteres Quartil t_0.25, Median t_0.5, oberes Quartil t_0.75 und Maximum x(n), kann man einen Box-and Whiskers-Plot zeichnen, die Box reicht dabei vom untere3n zum oberen Quantil, der Median wird als Strich in die Box gezeichnet und die Whiskers gehen z.B. von der Box zum Min- b.z.w. Maximum.
Box-Plots sind praktisch, wenn viele Histogramme miteinander verglichen werden sollen


Lageparameter

Das arithmetische Mittel stellt den Schwerpunkt der Daten dar (keine konkrete Ausprägung)

Streuungsparameter

Tschebyscheff-Ungleichung:
kennt man einen Datensatz, das Arithm. Mittel und die Standardabweichung, kann man eine Aussage machen, wie stark die Einzelwerte um den Mittelwert konzentriert sind:
wenn k eine bel. pos. Zahl ist, dann liegen von den n Werten höchstens 1/k^2 Werte außerhalb des Intervalls | x - s(x) k, x + s(x) k |
Speziell gilt für k=2 das 75% der Daten innerhalb und 25% außerhalb des 2 Stand.Abw. -Intervalls liegen


Strukturparameter
werden von standardisierten Verteilungen berechnet (von allen Werten der Mittelwert abgezogen und durch Stand.Abw. geteilt)


Mehrdimensionale Verteilungen
Merkmale können mehrere Dimensionen haben, Verteilungen von Unterdimensionen heißen Randverteilungen der höheren Verteilungen.
Eine zweidimensionale Häufigkeitstabelle heißt Kontingenz-Tafel, in den Zellen stehen die Häufigkeiten für das gleichzeitige Auftreten der beiden Dimensionsausprägungen, an den Rändern stehen die Randverteilungen.
wenn alle relativen bedingten Häufigkeiten eines Merkmals mit der Randverteilung übereinstimmen, sind die Ausprägungen empirisch unabhängig (h_ij / h_*j = h_i* / h_**)


Kovarianz
ist ein Maß für die lineare Abhängigkeit zweier Merkmale
cov(x, y) = 1/n sum_j (x_j - x) (y_j - y)
Da die Kovarianz von den Dimensionen abhängt, wird der empirische Korrelationskoeffizient r(x, y) benutzt, der der Kovarianz der standardisierten Merkmale entspricht.
Für unkorrelierte Variablen ist r(x, y) = 0 (was nicht bedeutet, das die Variablen unabhängig sind)
Geht man von Meßfehlern bei den Daten aus, kommt man zu den Begriffen Bestimmtheits- und Unbestimmtheitsmaß.
Wenn y das Datum ist, x der wahre Wert und e der Fehler, also y = x + e , dann ist der quadrierte Korrelationskoeffizient von y und e, also r^2 ( y, e) das Unbestimmtheitsmaß und r^2(y, x) das Bestimmtheitsmaß.
Hat man eine Punktwolke geplottet, lassen sich die Maße approximieren durch
Unbestimmtheitsmaß            (d/D)^2
Bestimmtheitsmaß                 1 -  (d/D)^2
Korrelationskoeffizient          sqrt(Bestimmtheitsmaß)
, wobei d der Innendurchmesser und D der Aussendurchmesser der Punktwolke ist.


lineare Ausgleichsgerade (einfach Regression)

das Bestimmtheitsmaß r^2(y,Y) mißt den Anteil der empirischen Varianz var(Y) an der Gesamtvarianz, um so höher es ist, um so näher liegen die Punkte an der Geraden 


Multiple lineare Regression


Wahrscheinlichkeitstheorie
drei Konzepte der Wahrscheinlichkeitstheorie:

Die Kolmogororoff-Axiome einige Formeln:

Zufällige Variable                       entspricht   dem Merkmal in der deskriptiven Statistik
Realisation der zf. Var.                 entspr.         der Ausprägung
Wahrscheinlichkeit                       entspr.         der relativem Häufigkeit
Wahrscheinlichkeitsverteilung  entspr.          dem Histogramm der rel. Häufigkeiten

Zwei zufällige Variablen sind unabhängig, wenn die Wahrscheinlichkeiten ihrer Realisationen total unabhängig sind


Die Verteilungsfunktion einer zuf. Variable gibt entsprechend der empirischen Verteilungsfunktion die Wahrscheinlichkeit an, mit der eine Ausprägung höchstens auftritt.


Der Erwartunswert (Symbol: mu) einer zuf. Var. ist definiert als die Summe der Produkte ihrer Realisationen mit deren Wahrscheinlichkeiten: E(A) = sum_i a_i P(A = a_i)


Wenn eine zufällige Variable Y = g(X) ist (g(x) ist stetige Funktion)), dann kann der Ertwartungswert EY sowohl als Erwartungswert von Y als auch als gewichteter Mittelwert der Ausprägungen g(x) berechnet werden.
Wenn g(x) eine lineare Funktion ist, ist E(g(x)) = g(E(x)).
Die Ungleichung von Jensen besagt, das wenn g(x) eine konkave Funktion ist, ist E(g(x)) < g(E(x)),
ist sie konvex ist E(g(x)) > g(E(x))


Die Varianz (Symbol: sigma^2) einer zuf. Var. ist definiert als die Summe der Produkte der quadrierten Differenzen ihrer Realisationen mit dem Erwartungswert mit ihren Wahrscheinlichkeiten: (yep!)
var(X) = sum_i ((x_i - EX)^2 P(X=x_i))

Rechenregel: Var(a + b X) = b^2 Var X


Der Verschiebungssatz besagt, das Var X = EX^2 - mu^2


für standardisierte Variablen gilt: EX* = 0; Var X* = 1
damit gilt für jede standardisierte Variable mit der Ungleichung von Tschebyscheff: P(| X*| > k) < 1/k^2
für beliebige Variablen gilt
P(| X - mu | > k sigma) < 1/k^2
P(| X - mu | < k sigma) > 1 - 1/k^2


Prognoseintervalle
Die Aussage | X - mu | > k sigma ist eine Prognaose über die Variable X im Intervall k sigma, die Tschebyscheff-Ungleichung gibt an, mit welcher Wahrscheinlichkeit die Prognose zutrifft.


das starke Gesetz der großen Zahlen besagt, das im Unendlichen das arithm. Mittel einer Zuf. Var. gegen ihren Erwartungswert konvergiert
Für Indikatorvariablen (1 für Auftreten, 0 für Nichtauftreten, Bernoulli-Variablen) folgt daraus, das im Limes ihre relative Häufigkeit gegen die Auftretenswahrscheinlichkeit strebt.


Hauptsatz der Statistik (Glivenko-Cantelli)
besagt, das im Limes für große n die empirische Verteilungsfunktion gegen die Verteilungsfunktion konvergiert


Mehrdimensionale zufällige Variable
Durch die Angabe aller P(X=x, Y=y) für zwei zuf. Var. ist die gemeinsame Wahrscheinlichkeitsverteilung der zweidimensionalen Variablen (X,Y) bestimmt. Man spricht von einem zweidimensionalem Zufallsvektor. Man kann sie in einer Tabelle zusammenfassen, dann stehen in den Zeilen bzw. Spalten die bedingten Wahrscheinlichkeiten.


Für die Kovarianz zweier zuf. Var. gilt analog zur emp. Kov Cov(X,Y) = E((X-mu_x)(Y-mu_y))
Sie macht eine Aussage über die lineare Beziehung der beiden Variablen


Für jede Verteilungsfunktion gilt: P(a < X < b) = F(b) - F(a)
alle Fragen sollten auf diese Form gebracht werden


Binomialverteilung B(n, pi) beschreibt das Urnenmodell mit Zurücklegen bei n Veruchen mit der Erfolgswahrscheinlichkeit pi.
Die Wahrscheinlichkeit, k richtige zu haben ist danach P(X = k) = (n über k) pi^k (1-pi)^n-k
Die Binomialverteilung ist schief, wenn pi != 0.5 ist


Hypergeometrische Verteilung H(N, M, n) beschreibt das Urnenmodell ohne Zurücklegen
P(X = k) = (M über k) (N-M über n-k) / (N über n), wobei M die Anzahl der Elemente mit der gesuchten Eigenschaft unter N Elementen ist, n die Gesamtstichprobe und k die Anzahl der Günstigen ist.


Gleichverteilung  P(X = x) = 1/n,             EX = (n-1)/2,              Var X = (n^2 -1)/12


Geometrische Verteilung G(pi) Wie oft muß ich würfeln, bis ich Erfolg habe?
P(X = k) = pi(1-pi)^i-1


Poissonverteilung PV(lambda) modelliert die Anzahl der Erfolge mit minimaler Erfolgswahrscheinlichkeit bei einer großen Anzahl von Versuchen     (z.B. Bakterien, Strahlung, Anrufe, Unfälle)
P(X = k) = (lambda^k) / k!  exp(-lambda)


Stetige Verteilungen
gelten für stetige zufällige Variablen, sie besitzen Wahrscheinlichkeitsdichten f(x), die der Ableitung der Verteilungsfunktion entspricht. Es gilt, das die Wahrscheinlichkeit einer konkreten Ausprägung immer gleich 0 ist, sinnvoll ist nur die Frage nach Intervallen.


Exponentialverteilung Expv(lambda) modelliert z.B. die Wartezeit bis zum Eintreffen eines Ereignisses
P(X = x) = 1 - exp(-lambda x)       EX = 1/lambda,   VarX = 1/lambda^2


stetige Gleichverteilung, ein Histogramm ist eine stückweise stetige Gleichverteilung


Die Normalverteilung kann nur tabellarisch bestimmt werden (der Wert F(x) entspricht dem Integral von minus unendlich bis x über der Dichte) , daher werden Werte über die Standardnormalverteilung N(0, 1) gesucht .



In der Regel werden Fragen über die Verteilung mit Prognoseintervallen beantwortet. Das (1-alpha)-Prognoseintevall beantwortet dabei die Frage nach t_(alpha/2) < X < t_(1-alpha/2)
Da es über die standardisierte Normalverteilung berechnet wird, lautet die Fromel
 sigma t*_(alpha/2) + mu < X <  sigma t*_(1-alpha/2) + mu
Für alpha = 5% mit t*_0.025 (bzw. 95% mit t*_0.975) = + 1.96 beträgt es
sigma 1.96 + mu < X <  sigma 1.96 + mu


Arbeitet man nicht mit der Normalverteilung, kann man nur mit der Tschebyscheff'schen Ungleichung sagen:
P(| X*| < t*) >  1- 1/(t*^2)
Dann har das 95% Prognoseintervall die Gestalt: sigma 4.47 + mu < X <  sigma 4.47 + mu


Der zentrale Grenzwertsatz besagt, das die Verteilungsfunktion der standardisierten Summe von zufälligen Variablen mit wachsenden n (Anz. der Var.) gegen die Normalverteilung konvergiert.
Die standardisierte Summe ist asymptotisch normalverteilt


Regeln für die Approximation diskreter Verteilungen durch die Normalverteilung
H(N, M, n) B(n, M/N) 20 n << N
B(n, pi) PV(n*pi)
B(n, pi) N(n pi, n pi (1-pi))
PV(lambda) N(lambda, lambda) lambda > 10


Die Chi-Quadrat-Verteilung
Wenn X_1 bis X_n unabhängige N(0, 1)-verteilte Zufallsvariablen sind, dann ist die Summe ihrer Quadrate Chi^2-verteilt mit n Freiheitsgraden. Der Erwartungswert ist n und die Varianz 2 n,
für große n ist die Chi^2-Verteilung asymptotisch N(n, 2n)-verteilt.


Die F-Verteilung ist die Verteilung für zwei Chi^2-verteilte Variablen, die durcheinander geteilt und mit ihren Freiheitsgraden multipliziert werden: nX/mY ~ F(n, m), wenn X~ Chi^2(n) und Y ~ Chi^2(m)


Die T-Verteilung entsteht aus dem Bruch zweier Verteilungen. Im Nenner steht eine N(0, 1)-verteilte Variable, im Zähler die Wurzel einer Chi^2-verteilten Variable, geteilt durch ihren Freiheitsgrad:
X/sqrt(Y/n) ~ t(n), wenn X ~ N(0, 1) und Y ~ Chi^2(n)


Die Cauchy-Verteilung ist eine T-Verteilung mit einem Freiheitsgrad (t(1)) und hat keinen Erwartungswert.


Die log-Normalverteilung: X ist log-normalverteilt wenn ln(X) normalverteilt ist.


 Schätztheorie
Die induktive Statistik ist durch folgende Aufgaben gekennzeichnet

Die Schätztheorie beschäftigt sich mit der Aufgabe, anhand einer Stichprobe Aussagen über die Grundgesamtheit zu machen, indem z.B. ein Parameter für ein angenommenes Modell gesucht wird.
Werden bei der Parameterschätzung genaue Zahlen geschätzt, spricht man von Punktschätzer, bei Intervallen von Bereichs- oder Intervallschätzer.


Die Likelihoodfunktion geht von der Frage aus, wie wahrscheinlich die Beobachtung gegebener Daten unter einem gesuchten Parameter ist, sie ist somit eine Funktion des Parameter theta.
Um die Likelihood eines Parameters theta zu bestimmen, muß man zunächst ein Modell ansetzen.
L(theta | y) = c f(y || Theta) ,
wobei c der Anteil der Verteilungsfunktion ohne theta und f(y || theta) der mit theta ist. (c ist multiplikative Konstante)
Zwei Likelihoodfunktionen sind gleich, wenn sie bis auf eine multiplikative Konstante c gleich sind
Für mehrere Ereignisse berechnet sich die Gesamtlikelihood aus dem Produkt der Likelihoods für die Einzelereignisse (Multiplikationssatz)


Eine Stichprobenfunktion T(x) (z.B. die empirische Varianz oder Erwartungswert) ist suffizient für den Parameter theta, falls die Likelihoodfunktion eindeutig durch T(x) bestimmt ist. T(x) enthält dann die gleiche Information über theta wie die Stichprobe selbst.


Der Maximum-Likelihood-Schätzer ist das Maximum der Likelihood-Funktion, ist die Likelihood-Funktion differenzierbar, kann man ihn numerisch durch Nullsetzen der ersten Ableitung bestimmen


Sucht man einen Parameter, der eine umkehrbare Funktion vom schon gefundenen Parameter ist, kann man ihn direkt aus diesem berechnen (bzw die Transformation in die Likelihood-Funktion ziehen)


Die log-Likelihood ist die logarithmierte Likelihood, da ihre Maxima an derselben Stelle liegen, liefern sie das selbe Ergebnis
Für mehrere Einzelereignisse werden die log-Likelihoods dann miteinander addiert


Da ein Schätzer von einem beobachteten Wert abhängt, hat auch er eine Verteilungsfunktion, die Güte eines Schätzers wird anhand dieser beurteilt
Wenn der Erwartungswert der Schätzfunktion gleich dem gesuchten Parameter theta ist, heißt der Schätzer erwartungstreu, sonst verfälscht. Die Differenz des Erwartungswerts vom ML-Schätzer ubd theta heißt Bias.


Ein Schätzer ist wirksamer als ein anderer, wenn er die kleinere Varianz hat, der wirksamste heißt effizient.


Der mittlere quadratische Fehler (Mean Square Error) eines Schätzers ist die Summe seiner Varianz und dem Quadrat des Bias (der Differenz zwischen gesuchten Parameter und Erwartungswert der Schätzfunktion)
Es kommt vor, das nicht erwartungstreue Schätzer mit geringem MSE erwartungstreuen mit großer Varianz vorzuziehen sind


Ein Schätzer ist asymptotisch erwartungstreu, wenn sein Erwartungswert gegen den gesuchten Parameter konvergiert


Wenn theta^ ein ML-Schätzer ist, dann gilt unter Regularitätsbedingungen:


Das Standardisieren einer zuf. Var. mit einer unabhängigen, aus einer Chi^2-Verteilung gewonnenen Varianzschätzung heißt studentisieren.


Konstruktion eines Konfidenzintervalls .
Man bestimmt für eine Variable Y , deren Verteilung von einem Parameter theta abhängt, ein (1-alpha)-Prognoseintervall.
a(theta) < Y < b(theta). Nun wird y beobachtet, obwohl theta (und damit die Grenzen des Prognoseintervalls) nicht bekannt ist, wird behauptet,die Prognose sei eingetreten. Die Gleichung wird nach theta aufgelöst: a(y) <  theta < b(y).
das Intervall [A(Y); B(Y)] heißt Konfidenzintervall zum Nivea 1-alpha


Ein Prognoseintervall gibt eine Prognose über die zukünftige Realisation einer Variable ab (die mit 1- alpha richtig iost). ein
Konfidenzintervall ist eine Aussage über einen Parameter theta.


Je höher das Konfidenzniveau (je sicherer die Aussage), desto größer wird das Intervall (desto unpräziser die Aussage)


Test-Theorie

Ziel der Test-Theorie ist es , Kriterien zu entwickeln, mit denen sich auf Basis der Stichprobe Entscheidungen für oder gegen Aussagen über die Grundgesamtheit treffen lassen.

Es gibt verteilungsfreie (solche, die über die Verteilung der Grundgesamtheit keine Annahmen machen) und parametrische Testverfahren


Die Entscheidungen werden in Form von Hypothesen formuliert und es werden Annahme- und Ablehnungsbereiche für die Hypothese festgelegt. Zieht man dann die Stichprobe, kann man sich anhand der Bereiche für oder gegen die Hypothese entscheiden. Dabei ist eine Entscheidung gegen die Hypothese aussagekräftiger, da ihr eine Wahrscheinlichkeit für Fehlentscheidung (die Hypothese war richtig, aber man hat sich dagegen entschieden) zuzuordnen ist.
Dafür ist die Hypothese so zu wählen, daß ihr anhand einer Verteilungsfunktion ein Fehlerrisiko zuzuordnen ist.


Die maximale Fehlerwahrscheinlichkeit bezeichnet man dabei als Signifikanzniveau des Tests.


Die Hypothese wird H0 genannt, die Alternative H1.
H0 richtig H1 richtig
H0 entschieden \/ Fehler zweiter Art
H1 entschieden Fehler erster Art \/

Entscheidungskriterium ist die Beobachtung einer Test- (Prüf-) Größe
Eine parametrisierte Hypothese ist eine, die von einem Parameter abhängt
Für einen statistischen Test braucht man:


author: Felix Burkhardt