Statistik in Stichworten

Einführung in die Statistik

in Stichworten

Inhalt:
    Deskriptive Statistik
    Wahrscheinlichkeitstheorie
    Stetige Verteilungen
    Schätztheorie
    Test-Theorie

Deskriptive Statistik ordnet, gruppiert und konzentriert Daten
Induktive Statistik schließt aus beobachteten Daten auf verborgene Strukturen

Deskriptive Statistik
Bei Datensammlungen werden Merkmale einer Stichprobe aus einer Grundgesamtheit erhoben, die Merkmale haben Ausprägungen,
Ausprägungen können nominal (z.B. Farben), ordinal (z.B. Schulnoten) oder kardinal (z.B. Temperatur) skaliert sein.
Ein Merkmal X ist eine Ausbildung der Elemente einer Grundgesamtheit in einem Merkmalsraum, x=X(e) ist die Ausprägung von X beim Element e. Je nach Meßvorschrift sind Merkmale stetig oder diskret, nominal, ordinal oder kardinal.
wenn X ein diskretes Merkmal ist, dann sind
a_j                             die möglichen Realisationen
x_i = X(e_i)            die individuellen Realisationen
h(a_j) = h_j            die absolute Häufigkeit der Ausprägung a_j .
sum_j h(a_j) = n   die Summe aller Ausprägungen entspricht der Größe der Stichprobe
f(a_j) = h(a_j)/n   die relative Häufigkeit

Sind die Ausprägungen chronologisch geordnet, so nennt man das eine Zeitreihe

Häufigkeiten lassen sich in Balken- oder Kreisdiagrammen veranschaulichen
Eine flächentreue Häufigkeitsarstellung gruppierter Daten heißt Histogramm, die Breite ist gleich der Gruppenbreite, die Höhe ergibt sich aus h_j/b_j

Die Summenkurve H(x) ist die Anzahl der Beobachtungen, deren Ausprägungen die Zahl x nicht übertreffen
dabei bedeutet:

höchstens x H(x)

alle größer x n - H(x)

größer x1, kleiner gleich x2 H(x2) - H(x1)

genau gleich x h(x)

kleiner x H(x) - h(x)

mindestens x n - (H(x) - h(x))

die empirische Verteilungsfunktion ist die normierte (durch n geteilte) Summenkurve. Sie enthält dieselbe Information wie das Histogramm und umgekehrt. F(x) = sum_(a_i < x) h(a_i)/n
Aus der Verteilungsfunktion lassen sich die Quantile bestimmen, für eine Zahl alpha ist das untere alpha-Quantil = t_alpha die Zahl, für die F(t_alpha) = alpha gilt. Das obere ist dann t_1-alpha. (spezielle Quantile sind unteres/oberes Quartil (0.25/0.75) und Median (0.5)

Aus den 5 Werten Minimum x(1), unteres Quartil t_0.25, Median t_0.5, oberes Quartil t_0.75 und Maximum x(n), kann man einen Box-and Whiskers-Plot zeichnen, die Box reicht dabei vom untere3n zum oberen Quantil, der Median wird als Strich in die Box gezeichnet und die Whiskers gehen z.B. von der Box zum Min- b.z.w. Maximum.
Box-Plots sind praktisch, wenn viele Histogramme miteinander verglichen werden sollen

Lageparameter

Median Vorteile: leicht zu berechnen und unempfindlich gegenüber Ausreißern, Nachteile: mathematisch schwer zu schätzen, schöpft die vorhandene Informaton nicht voll aus
arithmetisches Mittel: es gibt 4 Berechnungsmöglichkeiten

Urliste: x = 1/n sum_j a_j
Sortierte Daten: x = sum_j a_j f(a_j) (gewogenes Mittel)
Gruppierte Daten: x = sum_j m_j f(a_j) mit m_j = Mitte der j'ten Gruppe
Gemischte Daten x = 1/n sum_j x_j h_j

Das arithmetische Mittel stellt den Schwerpunkt der Daten dar (keine konkrete Ausprägung)

Streuungsparameter

mittlere absolute Abweichung: 1/n sum_i | x_i - x_med |
Spannweite: max - min
Quartilsabstand oberes - unteres Quartil
Varianz: var(x) = 1/n sum_i (x_i - x)^2
Standardabweichung s(x) ist die Wurzel der Varianz
der Variationskoeffizient = Standardabweichung / arithmet. Mittel (dimensionslos)

Tschebyscheff-Ungleichung:
kennt man einen Datensatz, das Arithm. Mittel und die Standardabweichung, kann man eine Aussage machen, wie stark die Einzelwerte um den Mittelwert konzentriert sind:
wenn k eine bel. pos. Zahl ist, dann liegen von den n Werten höchstens 1/k^2 Werte außerhalb des Intervalls | x - s(x) k, x + s(x) k |
Speziell gilt für k=2 das 75% der Daten innerhalb und 25% außerhalb des 2 Stand.Abw. -Intervalls liegen

Strukturparameter
werden von standardisierten Verteilungen berechnet (von allen Werten der Mittelwert abgezogen und durch Stand.Abw. geteilt)

Schiefe: Verteilungen können links oder rechts schief sein
Wölbung: Wölbung der N(0,1) ist z.B 3

Mehrdimensionale Verteilungen
Merkmale können mehrere Dimensionen haben, Verteilungen von Unterdimensionen heißen Randverteilungen der höheren Verteilungen.
Eine zweidimensionale Häufigkeitstabelle heißt Kontingenz-Tafel, in den Zellen stehen die Häufigkeiten für das gleichzeitige Auftreten der beiden Dimensionsausprägungen, an den Rändern stehen die Randverteilungen.
wenn alle relativen bedingten Häufigkeiten eines Merkmals mit der Randverteilung übereinstimmen, sind die Ausprägungen empirisch unabhängig (h_ij / h_*j = h_i* / h_**)

Kovarianz
ist ein Maß für die lineare Abhängigkeit zweier Merkmale
cov(x, y) = 1/n sum_j (x_j - x) (y_j - y)
Da die Kovarianz von den Dimensionen abhängt, wird der empirische Korrelationskoeffizient r(x, y) benutzt, der der Kovarianz der standardisierten Merkmale entspricht.
Für unkorrelierte Variablen ist r(x, y) = 0 (was nicht bedeutet, das die Variablen unabhängig sind)
Geht man von Meßfehlern bei den Daten aus, kommt man zu den Begriffen Bestimmtheits- und Unbestimmtheitsmaß.
Wenn y das Datum ist, x der wahre Wert und e der Fehler, also y = x + e , dann ist der quadrierte Korrelationskoeffizient von y und e, also r^2 ( y, e) das Unbestimmtheitsmaß und r^2(y, x) das Bestimmtheitsmaß.
Hat man eine Punktwolke geplottet, lassen sich die Maße approximieren durch
Unbestimmtheitsmaß            (d/D)^2
Bestimmtheitsmaß                 1 - (d/D)^2
Korrelationskoeffizient          sqrt(Bestimmtheitsmaß)
, wobei d der Innendurchmesser und D der Aussendurchmesser der Punktwolke ist.

lineare Ausgleichsgerade (einfach Regression)

gegeben eine Punktmenge y sucht man eine Gerade Y = b1 x + b0, die die Punkte optimal beschreibt.
Um die Nullstellen der Fehlerfunktion sum_i (y_i - (b1 x + b0))^2 (Summe der Fehlerquadrate) zu finden, wird die Ableitung 0 gesetzt und nach Parametern b0 und b1 aufgelöst.
Residuen sind für jeden Punkt von y die Fehler, die als Differenz zur Ausgleichsgeraden entstehen.
Die Gerade geht durch den Schwerpunkt der Punktwolke,
die systematische Komponente Y und die Residuen sind unkorreliert.

das Bestimmtheitsmaß r^2(y,Y) mißt den Anteil der empirischen Varianz var(Y) an der Gesamtvarianz, um so höher es ist, um so näher liegen die Punkte an der Geraden

Multiple lineare Regression

gibt es mehrere Variablen (z.B x und z), die auf eine Variable (z.B. y) einwirken, heissen x und z Regressoren und y Regressanden
die abhängige Variable y soll dann durch die Regressoren möglichst gut beschrieben werden
Wieder werden Koeffizienten für den Ausgleich durch Nullsetzen der Ableitung der Fehlerfunktion gesucht

Wahrscheinlichkeitstheorie
drei Konzepte der Wahrscheinlichkeitstheorie:

der logische Begriff; Wahrscheinlichkeit als Erweiterung der Logik
der frequentistische: Wahrscheinlichkeit als göttliches Prinzip im scheinbaren Chaos (Gesetz der großen Zahlen)
der subjektive: Wahrscheinlichkeit hängt subjektiv vom Beobachter ab, kennte er alle Parameter, könnte er alle Ereignisse berechnen

Die Kolmogororoff-Axiome

0 < P(A) < 1
P(Omega) = 1
P(A_1, ..., A_n) = P(A_1) + ... + P(A_n), wenn A_1 ... A_n disjunkt

einige Formeln:

bedingte Wahrscheinlichkeit P(B | A) = P(BA) / P(A)
Laplace`scher Wahrscheinlichkeitsbegriff P(zus. Ereignis) = Anzahl der günst. / Anzahl der mögl.
Satz der totalen Wahrscheinlichkeit: Wenn A ein Ereignis aus einer disjunkten Menge ist, von denen eins eintritt, und B ein beliebiges anderes Ereignis, dann ist P(B) = sum_i P(B | A_i) P(A_i)
Satz von Bayes: P(A_i | B) = (P(B | A_i) P(A_i)) / P(B)
stochastische Unabhängigkeit: P(AB) = P(A) P(B); P(A) = P(A | B); P(B) = P(B | A) <-> A und B unabhängig

Zufällige Variable                       entspricht   dem Merkmal in der deskriptiven Statistik
Realisation der zf. Var.                 entspr.         der Ausprägung
Wahrscheinlichkeit                       entspr.         der relativem Häufigkeit
Wahrscheinlichkeitsverteilung entspr.          dem Histogramm der rel. Häufigkeiten

Zwei zufällige Variablen sind unabhängig, wenn die Wahrscheinlichkeiten ihrer Realisationen total unabhängig sind

Die Verteilungsfunktion einer zuf. Variable gibt entsprechend der empirischen Verteilungsfunktion die Wahrscheinlichkeit an, mit der eine Ausprägung höchstens auftritt.

Der Erwartunswert (Symbol: mu) einer zuf. Var. ist definiert als die Summe der Produkte ihrer Realisationen mit deren Wahrscheinlichkeiten: E(A) = sum_i a_i P(A = a_i)

Wenn eine zufällige Variable Y = g(X) ist (g(x) ist stetige Funktion)), dann kann der Ertwartungswert EY sowohl als Erwartungswert von Y als auch als gewichteter Mittelwert der Ausprägungen g(x) berechnet werden.
Wenn g(x) eine lineare Funktion ist, ist E(g(x)) = g(E(x)).
Die Ungleichung von Jensen besagt, das wenn g(x) eine konkave Funktion ist, ist E(g(x)) < g(E(x)),
ist sie konvex ist E(g(x)) > g(E(x))

Die Varianz (Symbol: sigma^2) einer zuf. Var. ist definiert als die Summe der Produkte der quadrierten Differenzen ihrer Realisationen mit dem Erwartungswert mit ihren Wahrscheinlichkeiten: (yep!)
var(X) = sum_i ((x_i - EX)^2 P(X=x_i))

Rechenregel: Var(a + b X) = b^2 Var X

Der Verschiebungssatz besagt, das Var X = EX^2 - mu^2

für standardisierte Variablen gilt: EX* = 0; Var X* = 1
damit gilt für jede standardisierte Variable mit der Ungleichung von Tschebyscheff: P(| X*| > k) < 1/k^2
für beliebige Variablen gilt
P(| X - mu | > k sigma) < 1/k^2
P(| X - mu | < k sigma) > 1 - 1/k^2

Prognoseintervalle
Die Aussage | X - mu | > k sigma ist eine Prognaose über die Variable X im Intervall k sigma, die Tschebyscheff-Ungleichung gibt an, mit welcher Wahrscheinlichkeit die Prognose zutrifft.

das starke Gesetz der großen Zahlen besagt, das im Unendlichen das arithm. Mittel einer Zuf. Var. gegen ihren Erwartungswert konvergiert
Für Indikatorvariablen (1 für Auftreten, 0 für Nichtauftreten, Bernoulli-Variablen) folgt daraus, das im Limes ihre relative Häufigkeit gegen die Auftretenswahrscheinlichkeit strebt.

Hauptsatz der Statistik (Glivenko-Cantelli)
besagt, das im Limes für große n die empirische Verteilungsfunktion gegen die Verteilungsfunktion konvergiert

Mehrdimensionale zufällige Variable
Durch die Angabe aller P(X=x, Y=y) für zwei zuf. Var. ist die gemeinsame Wahrscheinlichkeitsverteilung der zweidimensionalen Variablen (X,Y) bestimmt. Man spricht von einem zweidimensionalem Zufallsvektor. Man kann sie in einer Tabelle zusammenfassen, dann stehen in den Zeilen bzw. Spalten die bedingten Wahrscheinlichkeiten.

Für die Kovarianz zweier zuf. Var. gilt analog zur emp. Kov Cov(X,Y) = E((X-mu_x)(Y-mu_y))
Sie macht eine Aussage über die lineare Beziehung der beiden Variablen

Für jede Verteilungsfunktion gilt: P(a < X < b) = F(b) - F(a)
alle Fragen sollten auf diese Form gebracht werden

Binomialverteilung B(n, pi) beschreibt das Urnenmodell mit Zurücklegen bei n Veruchen mit der Erfolgswahrscheinlichkeit pi.
Die Wahrscheinlichkeit, k richtige zu haben ist danach P(X = k) = (n über k) pi^k (1-pi)^n-k
Die Binomialverteilung ist schief, wenn pi != 0.5 ist

Hypergeometrische Verteilung H(N, M, n) beschreibt das Urnenmodell ohne Zurücklegen
P(X = k) = (M über k) (N-M über n-k) / (N über n), wobei M die Anzahl der Elemente mit der gesuchten Eigenschaft unter N Elementen ist, n die Gesamtstichprobe und k die Anzahl der Günstigen ist.

Gleichverteilung P(X = x) = 1/n, EX = (n-1)/2, Var X = (n^2 -1)/12

Geometrische Verteilung G(pi) Wie oft muß ich würfeln, bis ich Erfolg habe?
P(X = k) = pi(1-pi)^i-1

Poissonverteilung PV(lambda) modelliert die Anzahl der Erfolge mit minimaler Erfolgswahrscheinlichkeit bei einer großen Anzahl von Versuchen (z.B. Bakterien, Strahlung, Anrufe, Unfälle)
P(X = k) = (lambda^k) / k! exp(-lambda)

Stetige Verteilungen
gelten für stetige zufällige Variablen, sie besitzen Wahrscheinlichkeitsdichten f(x), die der Ableitung der Verteilungsfunktion entspricht. Es gilt, das die Wahrscheinlichkeit einer konkreten Ausprägung immer gleich 0 ist, sinnvoll ist nur die Frage nach Intervallen.

Exponentialverteilung Expv(lambda) modelliert z.B. die Wartezeit bis zum Eintreffen eines Ereignisses
P(X = x) = 1 - exp(-lambda x) EX = 1/lambda, VarX = 1/lambda^2

stetige Gleichverteilung, ein Histogramm ist eine stückweise stetige Gleichverteilung

Die Normalverteilung kann nur tabellarisch bestimmt werden (der Wert F(x) entspricht dem Integral von minus unendlich bis x über der Dichte) , daher werden Werte über die Standardnormalverteilung N(0, 1) gesucht .

In der Regel werden Fragen über die Verteilung mit Prognoseintervallen beantwortet. Das (1-alpha)-Prognoseintevall beantwortet dabei die Frage nach t_(alpha/2) < X < t_(1-alpha/2)
Da es über die standardisierte Normalverteilung berechnet wird, lautet die Fromel
sigma t*_(alpha/2) + mu < X < sigma t*_(1-alpha/2) + mu
Für alpha = 5% mit t*_0.025 (bzw. 95% mit t*_0.975) = + 1.96 beträgt es
sigma 1.96 + mu < X < sigma 1.96 + mu

Arbeitet man nicht mit der Normalverteilung, kann man nur mit der Tschebyscheff'schen Ungleichung sagen:
P(| X*| < t*) > 1- 1/(t*^2)
Dann har das 95% Prognoseintervall die Gestalt: sigma 4.47 + mu < X < sigma 4.47 + mu

Der zentrale Grenzwertsatz besagt, das die Verteilungsfunktion der standardisierten Summe von zufälligen Variablen mit wachsenden n (Anz. der Var.) gegen die Normalverteilung konvergiert.
Die standardisierte Summe ist asymptotisch normalverteilt

Regeln für die Approximation diskreter Verteilungen durch die Normalverteilung

H(N, M, n) B(n, M/N) 20 n << N

B(n, pi) PV(n*pi)

B(n, pi) N(n pi, n pi (1-pi))

PV(lambda) N(lambda, lambda) lambda > 10

Die Chi-Quadrat-Verteilung
Wenn X_1 bis X_n unabhängige N(0, 1)-verteilte Zufallsvariablen sind, dann ist die Summe ihrer Quadrate Chi^2-verteilt mit n Freiheitsgraden. Der Erwartungswert ist n und die Varianz 2 n,
für große n ist die Chi^2-Verteilung asymptotisch N(n, 2n)-verteilt.

Die F-Verteilung ist die Verteilung für zwei Chi^2-verteilte Variablen, die durcheinander geteilt und mit ihren Freiheitsgraden multipliziert werden: nX/mY ~ F(n, m), wenn X~ Chi^2(n) und Y ~ Chi^2(m)

Die T-Verteilung entsteht aus dem Bruch zweier Verteilungen. Im Nenner steht eine N(0, 1)-verteilte Variable, im Zähler die Wurzel einer Chi^2-verteilten Variable, geteilt durch ihren Freiheitsgrad:
X/sqrt(Y/n) ~ t(n), wenn X ~ N(0, 1) und Y ~ Chi^2(n)

Die Cauchy-Verteilung ist eine T-Verteilung mit einem Freiheitsgrad (t(1)) und hat keinen Erwartungswert.

Die log-Normalverteilung: X ist log-normalverteilt wenn ln(X) normalverteilt ist.

Schätztheorie
Die induktive Statistik ist durch folgende Aufgaben gekennzeichnet

Übersetzen der Realität in eine Modell
Auswertung der Daten innerhalb des Modells
Prognosen über die zukünftigen Realisationen zufälliger Variablen
Schätzungen unbekannter Parameter oder Verteilungen
Tests von Hypothesen
Rückübersetzung der Modellergebnisse in die Realität

Die Schätztheorie beschäftigt sich mit der Aufgabe, anhand einer Stichprobe Aussagen über die Grundgesamtheit zu machen, indem z.B. ein Parameter für ein angenommenes Modell gesucht wird.
Werden bei der Parameterschätzung genaue Zahlen geschätzt, spricht man von Punktschätzer, bei Intervallen von Bereichs- oder Intervallschätzer.

Die Likelihoodfunktion geht von der Frage aus, wie wahrscheinlich die Beobachtung gegebener Daten unter einem gesuchten Parameter ist, sie ist somit eine Funktion des Parameter theta.
Um die Likelihood eines Parameters theta zu bestimmen, muß man zunächst ein Modell ansetzen.
L(theta | y) = c f(y || Theta) ,
wobei c der Anteil der Verteilungsfunktion ohne theta und f(y || theta) der mit theta ist. (c ist multiplikative Konstante)
Zwei Likelihoodfunktionen sind gleich, wenn sie bis auf eine multiplikative Konstante c gleich sind
Für mehrere Ereignisse berechnet sich die Gesamtlikelihood aus dem Produkt der Likelihoods für die Einzelereignisse (Multiplikationssatz)

Eine Stichprobenfunktion T(x) (z.B. die empirische Varianz oder Erwartungswert) ist suffizient für den Parameter theta, falls die Likelihoodfunktion eindeutig durch T(x) bestimmt ist. T(x) enthält dann die gleiche Information über theta wie die Stichprobe selbst.

Der Maximum-Likelihood-Schätzer ist das Maximum der Likelihood-Funktion, ist die Likelihood-Funktion differenzierbar, kann man ihn numerisch durch Nullsetzen der ersten Ableitung bestimmen

Sucht man einen Parameter, der eine umkehrbare Funktion vom schon gefundenen Parameter ist, kann man ihn direkt aus diesem berechnen (bzw die Transformation in die Likelihood-Funktion ziehen)

Die log-Likelihood ist die logarithmierte Likelihood, da ihre Maxima an derselben Stelle liegen, liefern sie das selbe Ergebnis
Für mehrere Einzelereignisse werden die log-Likelihoods dann miteinander addiert

Da ein Schätzer von einem beobachteten Wert abhängt, hat auch er eine Verteilungsfunktion, die Güte eines Schätzers wird anhand dieser beurteilt
Wenn der Erwartungswert der Schätzfunktion gleich dem gesuchten Parameter theta ist, heißt der Schätzer erwartungstreu, sonst verfälscht. Die Differenz des Erwartungswerts vom ML-Schätzer ubd theta heißt Bias.

Ein Schätzer ist wirksamer als ein anderer, wenn er die kleinere Varianz hat, der wirksamste heißt effizient.

Der mittlere quadratische Fehler (Mean Square Error) eines Schätzers ist die Summe seiner Varianz und dem Quadrat des Bias (der Differenz zwischen gesuchten Parameter und Erwartungswert der Schätzfunktion)
Es kommt vor, das nicht erwartungstreue Schätzer mit geringem MSE erwartungstreuen mit großer Varianz vorzuziehen sind

Ein Schätzer ist asymptotisch erwartungstreu, wenn sein Erwartungswert gegen den gesuchten Parameter konvergiert

Wenn theta^ ein ML-Schätzer ist, dann gilt unter Regularitätsbedingungen:

theta^ ist asymptotisch erwartungstreu: E(theta^) -> theta
theta^ ist konsistent: theta^ -> theta
theta^ ist asymptotisch normalverteilt: theta^ ~ N(theta, c/n)
theta^ ist asymptotisch effizient

Das Standardisieren einer zuf. Var. mit einer unabhängigen, aus einer Chi^2-Verteilung gewonnenen Varianzschätzung heißt studentisieren.

Konstruktion eines Konfidenzintervalls .
Man bestimmt für eine Variable Y , deren Verteilung von einem Parameter theta abhängt, ein (1-alpha)-Prognoseintervall.
a(theta) < Y < b(theta). Nun wird y beobachtet, obwohl theta (und damit die Grenzen des Prognoseintervalls) nicht bekannt ist, wird behauptet,die Prognose sei eingetreten. Die Gleichung wird nach theta aufgelöst: a(y) < theta < b(y).
das Intervall [A(Y); B(Y)] heißt Konfidenzintervall zum Nivea 1-alpha

Ein Prognoseintervall gibt eine Prognose über die zukünftige Realisation einer Variable ab (die mit 1- alpha richtig iost). ein
Konfidenzintervall ist eine Aussage über einen Parameter theta.

Je höher das Konfidenzniveau (je sicherer die Aussage), desto größer wird das Intervall (desto unpräziser die Aussage)

Test-Theorie

Ziel der Test-Theorie ist es , Kriterien zu entwickeln, mit denen sich auf Basis der Stichprobe Entscheidungen für oder gegen Aussagen über die Grundgesamtheit treffen lassen.

Es gibt verteilungsfreie (solche, die über die Verteilung der Grundgesamtheit keine Annahmen machen) und parametrische Testverfahren

Die Entscheidungen werden in Form von Hypothesen formuliert und es werden Annahme- und Ablehnungsbereiche für die Hypothese festgelegt. Zieht man dann die Stichprobe, kann man sich anhand der Bereiche für oder gegen die Hypothese entscheiden. Dabei ist eine Entscheidung gegen die Hypothese aussagekräftiger, da ihr eine Wahrscheinlichkeit für Fehlentscheidung (die Hypothese war richtig, aber man hat sich dagegen entschieden) zuzuordnen ist.
Dafür ist die Hypothese so zu wählen, daß ihr anhand einer Verteilungsfunktion ein Fehlerrisiko zuzuordnen ist.

Die maximale Fehlerwahrscheinlichkeit bezeichnet man dabei als Signifikanzniveau des Tests.

Die Hypothese wird H0 genannt, die Alternative H1.

H0 richtig H1 richtig

H0 entschieden \/ Fehler zweiter Art

H1 entschieden Fehler erster Art \/

Entscheidungskriterium ist die Beobachtung einer Test- (Prüf-) Größe
Eine parametrisierte Hypothese ist eine, die von einem Parameter abhängt
Für einen statistischen Test braucht man:

Vorwissen: Y ist eine n-dimensionale zuf. Var. mit Verteilung F aus der Menge der Verteilungen H
Hypothesen: mögliche Verteilungen von F sind zwei disjunkte Mengen: H0 und H1
Testproblem: Nach Beobachten einer Realisaton von Y ist für oder gegen H0 zu entscheiden
Fehler: erster Art: H1 entschieden, obwohl H0 richtig ist, zweiter Art H0 entschieden, obwohl H1 richtig ist
Fehlerwahrscheinlichkeit: P(Fehler 1. Art), P(Fehler 2. Art)
Signifikanzniveau: maximale Wahrscheinlichkeit für Fehler erster Art
Prüfgröße: eine Stichprobenfunktion, Verteilung sollte bekannt sein, um das Signifikanzniveau angeben zu können
Entscheidungsregel: Menge aller Realisationen der Prüfgröße, wird in Annahme und Ablehn- (kritischer-) Bereich eingeteilt.
Test von Signifikanzniveau: Eine Prüfgröße definiert einen Test zum Signifikanzniveau alpha, falls die Wahrscheinlichkeit für einen Fehler erster Art höchstens alpha ist
Parametertest: Die Menge der Parameterwerte ist unterteilt in solche, die H0 unterstützen und solche die H1 unterstützen
Gütefunktion: g(theta) ist die Wahrscheinlichkeit der Entscheidung für H1 als Funktion des Parameters theta

author: Felix Burkhardt

höchstens x	H(x)
alle größer x	n - H(x)
größer x1, kleiner gleich x2	H(x2) - H(x1)
genau gleich x	h(x)
kleiner x	H(x) - h(x)
mindestens x	n - (H(x) - h(x))

H(N, M, n)	B(n, M/N)	20 n << N
B(n, pi)	PV(n*pi)
B(n, pi)	N(n pi, n pi (1-pi))
PV(lambda)	N(lambda, lambda)	lambda > 10

	H0 richtig	H1 richtig
H0 entschieden	\/	Fehler zweiter Art
H1 entschieden	Fehler erster Art	\/