in Stichworten
Inhalt:
Deskriptive Statistik
Wahrscheinlichkeitstheorie
Stetige Verteilungen
Schätztheorie
Test-Theorie
Deskriptive Statistik ordnet, gruppiert und konzentriert Daten
Induktive Statistik schließt aus beobachteten Daten auf
verborgene Strukturen
Deskriptive
Statistik
Bei Datensammlungen werden Merkmale einer Stichprobe aus einer Grundgesamtheit
erhoben, die Merkmale haben Ausprägungen,
Ausprägungen können nominal (z.B. Farben), ordinal (z.B.
Schulnoten) oder kardinal (z.B. Temperatur) skaliert sein.
Ein Merkmal X ist eine Ausbildung der Elemente einer Grundgesamtheit
in einem Merkmalsraum, x=X(e) ist die Ausprägung von X beim Element
e. Je nach Meßvorschrift sind Merkmale stetig oder diskret, nominal,
ordinal oder kardinal.
wenn X ein diskretes Merkmal ist, dann sind
a_j
die möglichen Realisationen
x_i = X(e_i)
die individuellen Realisationen
h(a_j) = h_j
die absolute Häufigkeit der Ausprägung a_j .
sum_j h(a_j) = n die Summe aller Ausprägungen entspricht
der Größe der Stichprobe
f(a_j) = h(a_j)/n die relative Häufigkeit
Sind die Ausprägungen chronologisch geordnet, so nennt man das
eine Zeitreihe
Häufigkeiten lassen sich in Balken- oder Kreisdiagrammen
veranschaulichen
Eine flächentreue Häufigkeitsarstellung gruppierter Daten
heißt Histogramm, die Breite ist gleich der Gruppenbreite,
die Höhe ergibt sich aus h_j/b_j
Die Summenkurve H(x) ist die Anzahl der Beobachtungen, deren
Ausprägungen die Zahl x nicht übertreffen
dabei bedeutet:
höchstens x | H(x) |
alle größer x | n - H(x) |
größer x1, kleiner gleich x2 | H(x2) - H(x1) |
genau gleich x | h(x) |
kleiner x | H(x) - h(x) |
mindestens x | n - (H(x) - h(x)) |
die empirische
Verteilungsfunktion ist die normierte (durch n geteilte) Summenkurve.
Sie enthält dieselbe Information wie das Histogramm und umgekehrt.
F(x) = sum_(a_i < x) h(a_i)/n
Aus der Verteilungsfunktion lassen sich die Quantile bestimmen,
für eine Zahl alpha ist das untere alpha-Quantil = t_alpha die Zahl,
für die F(t_alpha) = alpha gilt. Das obere ist dann t_1-alpha. (spezielle
Quantile sind unteres/oberes Quartil (0.25/0.75) und Median
(0.5)
Aus den 5 Werten Minimum x(1), unteres Quartil t_0.25, Median t_0.5,
oberes Quartil t_0.75 und Maximum x(n), kann man einen Box-and Whiskers-Plot
zeichnen, die Box reicht dabei vom untere3n zum oberen Quantil, der Median
wird als Strich in die Box gezeichnet und die Whiskers gehen z.B. von der
Box zum Min- b.z.w. Maximum.
Box-Plots sind praktisch, wenn viele Histogramme miteinander verglichen
werden sollen
Lageparameter
Streuungsparameter
Tschebyscheff-Ungleichung:
kennt man einen Datensatz, das Arithm. Mittel und die Standardabweichung,
kann man eine Aussage machen, wie stark die Einzelwerte um den Mittelwert
konzentriert sind:
wenn k eine bel. pos. Zahl ist, dann liegen von den n Werten höchstens
1/k^2 Werte außerhalb des Intervalls | x - s(x) k, x
+ s(x) k |
Speziell gilt für k=2 das 75% der Daten innerhalb und 25% außerhalb
des 2 Stand.Abw. -Intervalls liegen
Strukturparameter
werden von standardisierten Verteilungen berechnet (von allen Werten
der Mittelwert abgezogen und durch Stand.Abw. geteilt)
Mehrdimensionale Verteilungen
Merkmale können mehrere Dimensionen haben, Verteilungen von Unterdimensionen
heißen Randverteilungen der höheren Verteilungen.
Eine zweidimensionale Häufigkeitstabelle heißt Kontingenz-Tafel,
in den Zellen stehen die Häufigkeiten für das gleichzeitige Auftreten
der beiden Dimensionsausprägungen, an den Rändern stehen die
Randverteilungen.
wenn alle relativen bedingten Häufigkeiten eines Merkmals mit
der Randverteilung übereinstimmen, sind die Ausprägungen empirisch
unabhängig (h_ij / h_*j = h_i* / h_**)
Kovarianz
ist ein Maß für die lineare Abhängigkeit zweier Merkmale
cov(x, y) = 1/n sum_j (x_j - x) (y_j - y)
Da die Kovarianz von den Dimensionen abhängt, wird der empirische
Korrelationskoeffizient r(x, y) benutzt, der der Kovarianz der standardisierten
Merkmale entspricht.
Für unkorrelierte Variablen ist r(x, y) = 0 (was nicht bedeutet,
das die Variablen unabhängig sind)
Geht man von Meßfehlern bei den Daten aus, kommt man zu den Begriffen
Bestimmtheits- und Unbestimmtheitsmaß.
Wenn y das Datum ist, x der wahre Wert und e der Fehler, also y = x
+ e , dann ist der quadrierte Korrelationskoeffizient von y und e, also
r^2 ( y, e) das Unbestimmtheitsmaß und r^2(y, x) das Bestimmtheitsmaß.
Hat man eine Punktwolke geplottet, lassen sich die Maße approximieren
durch
Unbestimmtheitsmaß
(d/D)^2
Bestimmtheitsmaß
1 - (d/D)^2
Korrelationskoeffizient
sqrt(Bestimmtheitsmaß)
, wobei d der Innendurchmesser und D der Aussendurchmesser der Punktwolke
ist.
lineare Ausgleichsgerade (einfach Regression)
das Bestimmtheitsmaß r^2(y,Y) mißt den Anteil der empirischen Varianz var(Y) an der Gesamtvarianz, um so höher es ist, um so näher liegen die Punkte an der Geraden
Multiple lineare Regression
Wahrscheinlichkeitstheorie
drei Konzepte der Wahrscheinlichkeitstheorie:
Zufällige Variable
entspricht dem Merkmal in der deskriptiven Statistik
Realisation der zf. Var.
entspr. der Ausprägung
Wahrscheinlichkeit
entspr. der relativem Häufigkeit
Wahrscheinlichkeitsverteilung entspr.
dem Histogramm der rel. Häufigkeiten
Zwei zufällige Variablen sind unabhängig, wenn die Wahrscheinlichkeiten
ihrer Realisationen total unabhängig sind
Die Verteilungsfunktion einer zuf. Variable gibt entsprechend
der empirischen Verteilungsfunktion
die Wahrscheinlichkeit an, mit der eine Ausprägung höchstens
auftritt.
Der Erwartunswert (Symbol: mu) einer zuf. Var. ist definiert
als die Summe der Produkte ihrer Realisationen mit deren Wahrscheinlichkeiten:
E(A) = sum_i a_i P(A = a_i)
Wenn eine zufällige Variable Y = g(X) ist (g(x) ist stetige Funktion)),
dann kann der Ertwartungswert EY sowohl als Erwartungswert von Y als auch
als gewichteter Mittelwert der Ausprägungen g(x) berechnet werden.
Wenn g(x) eine lineare Funktion ist, ist E(g(x)) = g(E(x)).
Die Ungleichung von Jensen besagt, das wenn g(x) eine konkave
Funktion ist, ist E(g(x)) < g(E(x)),
ist sie konvex ist E(g(x)) > g(E(x))
Die Varianz (Symbol: sigma^2) einer zuf. Var. ist definiert
als die Summe der Produkte der quadrierten Differenzen ihrer Realisationen
mit dem Erwartungswert mit ihren Wahrscheinlichkeiten: (yep!)
var(X) = sum_i ((x_i - EX)^2 P(X=x_i))
Rechenregel: Var(a + b X) = b^2 Var X
Der Verschiebungssatz besagt, das Var X = EX^2 - mu^2
für standardisierte Variablen gilt: EX* = 0; Var X* = 1
damit gilt für jede standardisierte Variable mit der Ungleichung
von Tschebyscheff: P(| X*| > k) < 1/k^2
für beliebige Variablen gilt
P(| X - mu | > k sigma) < 1/k^2
P(| X - mu | < k sigma) > 1 - 1/k^2
Prognoseintervalle
Die Aussage | X - mu | > k sigma ist eine Prognaose über
die Variable X im Intervall k sigma, die Tschebyscheff-Ungleichung gibt
an, mit welcher Wahrscheinlichkeit die Prognose zutrifft.
das starke Gesetz der großen Zahlen besagt, das im Unendlichen
das arithm. Mittel einer Zuf. Var. gegen ihren Erwartungswert konvergiert
Für Indikatorvariablen (1 für Auftreten, 0 für Nichtauftreten,
Bernoulli-Variablen) folgt daraus, das im Limes ihre relative Häufigkeit
gegen die Auftretenswahrscheinlichkeit strebt.
Hauptsatz der Statistik (Glivenko-Cantelli)
besagt, das im Limes für große n die empirische
Verteilungsfunktion gegen die Verteilungsfunktion konvergiert
Mehrdimensionale zufällige Variable
Durch die Angabe aller P(X=x, Y=y) für zwei zuf. Var. ist die
gemeinsame Wahrscheinlichkeitsverteilung der zweidimensionalen Variablen
(X,Y) bestimmt. Man spricht von einem zweidimensionalem Zufallsvektor.
Man kann sie in einer Tabelle zusammenfassen, dann stehen in den Zeilen
bzw. Spalten die bedingten Wahrscheinlichkeiten.
Für die Kovarianz zweier zuf. Var. gilt analog zur emp.
Kov Cov(X,Y) = E((X-mu_x)(Y-mu_y))
Sie macht eine Aussage über die lineare Beziehung der beiden Variablen
Für jede Verteilungsfunktion gilt: P(a < X <
b) = F(b) - F(a)
alle Fragen sollten auf diese Form gebracht werden
Binomialverteilung
B(n, pi) beschreibt das Urnenmodell mit Zurücklegen bei n Veruchen
mit der Erfolgswahrscheinlichkeit pi.
Die Wahrscheinlichkeit, k richtige zu haben ist danach P(X = k) = (n
über k) pi^k (1-pi)^n-k
Die Binomialverteilung ist schief, wenn pi != 0.5 ist
Hypergeometrische Verteilung
H(N, M, n) beschreibt das Urnenmodell ohne Zurücklegen
P(X = k) = (M über k) (N-M über n-k) / (N über n), wobei
M die Anzahl der Elemente mit der gesuchten Eigenschaft unter N Elementen
ist, n die Gesamtstichprobe und k die Anzahl der Günstigen ist.
Gleichverteilung P(X = x) = 1/n,
EX = (n-1)/2,
Var X = (n^2 -1)/12
Geometrische Verteilung G(pi)
Wie oft muß ich würfeln, bis ich Erfolg habe?
P(X = k) = pi(1-pi)^i-1
Poissonverteilung PV(lambda)
modelliert die Anzahl der Erfolge mit minimaler Erfolgswahrscheinlichkeit
bei einer großen Anzahl von Versuchen (z.B.
Bakterien, Strahlung, Anrufe, Unfälle)
P(X = k) = (lambda^k) / k! exp(-lambda)
Stetige
Verteilungen
gelten für stetige zufällige Variablen, sie besitzen Wahrscheinlichkeitsdichten
f(x), die der Ableitung der Verteilungsfunktion entspricht. Es gilt,
das die Wahrscheinlichkeit einer konkreten Ausprägung immer gleich
0 ist, sinnvoll ist nur die Frage nach Intervallen.
Exponentialverteilung Expv(lambda) modelliert z.B. die Wartezeit
bis zum Eintreffen eines Ereignisses
P(X = x) = 1 - exp(-lambda x) EX
= 1/lambda, VarX = 1/lambda^2
stetige Gleichverteilung, ein Histogramm ist eine stückweise
stetige Gleichverteilung
Die Normalverteilung kann nur tabellarisch bestimmt werden (der
Wert F(x) entspricht dem Integral von minus unendlich bis x über der
Dichte) , daher werden Werte über die Standardnormalverteilung N(0,
1) gesucht .
In der Regel werden Fragen über die Verteilung mit Prognoseintervallen
beantwortet. Das (1-alpha)-Prognoseintevall beantwortet dabei die Frage
nach t_(alpha/2) < X < t_(1-alpha/2)
Da es über die standardisierte Normalverteilung berechnet wird,
lautet die Fromel
sigma t*_(alpha/2) + mu < X < sigma
t*_(1-alpha/2) + mu
Für alpha = 5% mit t*_0.025 (bzw. 95% mit t*_0.975) = +
1.96 beträgt es
sigma 1.96 + mu < X < sigma 1.96 + mu
Arbeitet man nicht mit der Normalverteilung, kann man nur mit der Tschebyscheff'schen
Ungleichung sagen:
P(| X*| < t*) > 1- 1/(t*^2)
Dann har das 95% Prognoseintervall die Gestalt: sigma 4.47 + mu <
X < sigma 4.47 + mu
Der zentrale Grenzwertsatz besagt, das die Verteilungsfunktion
der standardisierten Summe von zufälligen Variablen mit wachsenden
n (Anz. der Var.) gegen die Normalverteilung konvergiert.
Die standardisierte Summe ist asymptotisch normalverteilt
Regeln für die Approximation diskreter Verteilungen durch die Normalverteilung
H(N, M, n) | B(n, M/N) | 20 n << N |
B(n, pi) | PV(n*pi) | |
B(n, pi) | N(n pi, n pi (1-pi)) | |
PV(lambda) | N(lambda, lambda) | lambda > 10 |
Die Chi-Quadrat-Verteilung
Wenn X_1 bis X_n unabhängige N(0, 1)-verteilte Zufallsvariablen
sind, dann ist die Summe ihrer Quadrate Chi^2-verteilt mit n Freiheitsgraden.
Der Erwartungswert ist n und die Varianz 2 n,
für große n ist die Chi^2-Verteilung asymptotisch N(n, 2n)-verteilt.
Die F-Verteilung ist die Verteilung für zwei Chi^2-verteilte
Variablen, die durcheinander geteilt und mit ihren Freiheitsgraden multipliziert
werden: nX/mY ~ F(n, m), wenn X~ Chi^2(n) und Y ~ Chi^2(m)
Die T-Verteilung entsteht aus dem Bruch zweier Verteilungen.
Im Nenner steht eine N(0, 1)-verteilte Variable, im Zähler die Wurzel
einer Chi^2-verteilten Variable, geteilt durch ihren Freiheitsgrad:
X/sqrt(Y/n) ~ t(n), wenn X ~ N(0, 1) und Y ~ Chi^2(n)
Die Cauchy-Verteilung ist eine T-Verteilung mit einem Freiheitsgrad
(t(1)) und hat keinen Erwartungswert.
Die log-Normalverteilung: X ist log-normalverteilt wenn ln(X)
normalverteilt ist.
Schätztheorie
Die induktive Statistik ist durch folgende Aufgaben gekennzeichnet
Die Schätztheorie beschäftigt sich mit der Aufgabe, anhand einer
Stichprobe Aussagen über die Grundgesamtheit zu machen, indem z.B.
ein Parameter für ein angenommenes Modell gesucht wird.
Werden bei der Parameterschätzung genaue Zahlen geschätzt,
spricht man von Punktschätzer, bei Intervallen von Bereichs-
oder Intervallschätzer.
Die Likelihoodfunktion geht von der Frage aus, wie wahrscheinlich
die Beobachtung gegebener Daten unter einem gesuchten Parameter ist, sie
ist somit eine Funktion des Parameter theta.
Um die Likelihood eines Parameters theta zu bestimmen, muß man
zunächst ein Modell ansetzen.
L(theta | y) = c f(y || Theta) ,
wobei c der Anteil der Verteilungsfunktion ohne theta und f(y || theta)
der mit theta ist. (c ist multiplikative Konstante)
Zwei Likelihoodfunktionen sind gleich, wenn sie bis auf eine multiplikative
Konstante c gleich sind
Für mehrere Ereignisse berechnet sich die Gesamtlikelihood aus
dem Produkt der Likelihoods für die Einzelereignisse (Multiplikationssatz)
Eine Stichprobenfunktion T(x) (z.B. die empirische Varianz oder Erwartungswert)
ist suffizient für den Parameter theta, falls die Likelihoodfunktion
eindeutig durch T(x) bestimmt ist. T(x) enthält dann die gleiche Information
über theta wie die Stichprobe selbst.
Der Maximum-Likelihood-Schätzer ist das Maximum der Likelihood-Funktion,
ist die Likelihood-Funktion differenzierbar, kann man ihn numerisch durch
Nullsetzen der ersten Ableitung bestimmen
Sucht man einen Parameter, der eine umkehrbare Funktion vom schon gefundenen
Parameter ist, kann man ihn direkt aus diesem berechnen (bzw die Transformation
in die Likelihood-Funktion ziehen)
Die log-Likelihood ist die logarithmierte Likelihood, da ihre
Maxima an derselben Stelle liegen, liefern sie das selbe Ergebnis
Für mehrere Einzelereignisse werden die log-Likelihoods dann miteinander
addiert
Da ein Schätzer von einem beobachteten Wert abhängt, hat
auch er eine Verteilungsfunktion, die Güte eines Schätzers wird
anhand dieser beurteilt
Wenn der Erwartungswert der Schätzfunktion gleich dem gesuchten
Parameter theta ist, heißt der Schätzer erwartungstreu,
sonst verfälscht. Die Differenz des Erwartungswerts vom ML-Schätzer
ubd theta heißt Bias.
Ein Schätzer ist wirksamer als ein anderer, wenn er die
kleinere Varianz hat, der wirksamste heißt effizient.
Der mittlere quadratische Fehler (Mean Square Error) eines Schätzers
ist die Summe seiner Varianz und dem Quadrat des Bias (der Differenz zwischen
gesuchten Parameter und Erwartungswert der Schätzfunktion)
Es kommt vor, das nicht erwartungstreue Schätzer mit geringem
MSE erwartungstreuen mit großer Varianz vorzuziehen sind
Ein Schätzer ist asymptotisch erwartungstreu, wenn sein
Erwartungswert gegen den gesuchten Parameter konvergiert
Wenn theta^ ein ML-Schätzer ist, dann gilt unter Regularitätsbedingungen:
Das Standardisieren einer zuf. Var. mit einer unabhängigen, aus
einer Chi^2-Verteilung gewonnenen Varianzschätzung heißt studentisieren.
Konstruktion eines Konfidenzintervalls .
Man bestimmt für eine Variable Y , deren Verteilung von einem
Parameter theta abhängt, ein (1-alpha)-Prognoseintervall.
a(theta) < Y < b(theta). Nun wird y beobachtet,
obwohl theta (und damit die Grenzen des Prognoseintervalls) nicht bekannt
ist, wird behauptet,die Prognose sei eingetreten. Die Gleichung wird nach
theta aufgelöst: a(y) < theta < b(y).
das Intervall [A(Y); B(Y)] heißt Konfidenzintervall zum Nivea
1-alpha
Ein Prognoseintervall gibt eine Prognose über die zukünftige
Realisation einer Variable ab (die mit 1- alpha richtig iost). ein
Konfidenzintervall ist eine Aussage über einen Parameter theta.
Je höher das Konfidenzniveau (je sicherer die Aussage), desto
größer wird das Intervall (desto unpräziser die Aussage)
Ziel der Test-Theorie ist es , Kriterien zu entwickeln, mit denen sich auf Basis der Stichprobe Entscheidungen für oder gegen Aussagen über die Grundgesamtheit treffen lassen.
Es gibt verteilungsfreie (solche, die über die Verteilung
der Grundgesamtheit keine Annahmen machen) und parametrische Testverfahren
Die Entscheidungen werden in Form von Hypothesen formuliert
und es werden Annahme- und Ablehnungsbereiche für die
Hypothese festgelegt. Zieht man dann die Stichprobe, kann man sich anhand
der Bereiche für oder gegen die Hypothese entscheiden. Dabei ist eine
Entscheidung gegen die Hypothese aussagekräftiger, da ihr eine Wahrscheinlichkeit
für Fehlentscheidung (die Hypothese war richtig, aber man hat sich
dagegen entschieden) zuzuordnen ist.
Dafür ist die Hypothese so zu wählen, daß ihr anhand
einer Verteilungsfunktion ein Fehlerrisiko zuzuordnen ist.
Die maximale Fehlerwahrscheinlichkeit bezeichnet man dabei als Signifikanzniveau
des Tests.
Die Hypothese wird H0 genannt, die Alternative H1.
H0 richtig | H1 richtig | |
H0 entschieden | \/ | Fehler zweiter Art |
H1 entschieden | Fehler erster Art | \/ |
Entscheidungskriterium ist die Beobachtung einer Test- (Prüf-)
Größe
Eine parametrisierte Hypothese ist eine, die von einem Parameter abhängt
Für einen statistischen Test braucht man:
author: Felix Burkhardt