Deutsch
Dein Feedback:
Hat die Seite Deine Erwartung erfüllt? vote3 Ja
vote2 Teilweise
vote1 Nein
Noch ein Kommentar?

Nur falls, Du eine Antwort erwartest, Deine E-Mailadresse

Gegebenenfalls noch Dein Name

Do not change this:
Feedback
Suchen

Mathematik

Etwas Mathematik.
18-03-2013 01.28

Statistik

Statistik Links

Eine Einführung in die Statistik, ausdrücklich auch für Nichtmathematiker, ziemlich unkonventionell, inklusive (etwas flachem) Humor: Buch Keine Panik vor Statistik.

Statistik Begriffe

Verzerrung, Bias: Systematischer Fehler

Daten

Skalenniveau

Skalenniveau
Qualitative Skalen
Nominalskala: Die Daten können nur auf Gleichheit verglichen werden, aber z.B. nicht sortiert. Beispiel: Haarfarbe.
Ordinal- oder Rangskala: Die Daten können auch noch sortiert werden, aber man kann z.B. nicht mit ihnen rechnen. Beispiel: Windstärke
Quantitative Skalen
Intervallskala: Zusätzlich ist es es möglich, den Abstand zwischen zwei Merkmalen zu bestimmen, aber z.B. nicht multiplizieren. Beispiel: Jahreszahl
Verhältnisskala: Jetzt ist auch Multiplikalten, Division möglich. Beispiel Körpergewicht.
Intervallskalen und Verhältnisskalen nennt man auch Metrische Skalen

Diskrete und Stetige Merkmale

Diskrete Merkmale: Abzählbar viele Ausprägungen (z.B. Schulnoten)
Stetige Merkmale: Überabzählbar viele Ausprägungen (z.B. Temperatur)

Kombinatorik

Bestimme die Anzahl der möglichen Kombinationen von (nicht) unterscheidbaren Objekten, wobei die Reihenfolge der Objekten eine (keine) Rolle spielt.
Man hat eine Menge von n Objekten und möchte k Objekte auswählen.

Permutation

Permutation, wie viele mögliche Reihenfolgen gibt es, alle n Objekte anzuordnen. Für den ersten Platz kann man n Objekte auswählen, für den zweiten (n-1), ... Es gibt als so viele Möglichkeiten:
(n)*(n-1)*(n-2)=(n!)
Falls es Objekte gibt, die nicht unterscheidbar sind, zählt man für jede nicht unterscheidbare Gruppe, wie viele Element davon gibt: v1, v2, v3, ...
So berechnet man dann die Anzahl der möglichen Permutationen, falls es nicht unterscheidbare Elemente gibt, deren Vertauschung untereinander nicht als unterschiedliche Permutation gezählt werden soll:
(n!)/( v1! * v2! * v3! * ...)
Beispiel, wir haben 7 Münzen:
2 * 1 Cent
1 * 2 Cent
3 * 5 Cent
1 * 10 Cent
1 * 50 Cent
Uns interessiert, wie kann man diese Münzen anordnen. n=7
n!=7!=5040
Aber die 2 * 2 Cent und die 3 * 5 Cent Münzen sind ja gleich, deren Vertauschung untereinander interessiert uns nicht. v1=2, v2=3
n!/(v1! *v2!)=7!/( 2! * 3!)=5040/(2 * 6)=420

Variation ohne Zurücklegen

Man hat n Objekte und zieht nacheinander k Objekte ohne diese nach der Ziehung zurückzulegen. Die Reihenfolge der gezogenen Objekte soll relevant sein, wie viele Möglichkeiten gibt es dann?
n! / (n-k)!

Variation mit Zurücklegen

Man hat n Objekte und zieht nacheinander k Objekte die sofort danach wieder zurückgelegt werden (sie können also mehrfach gezogen werden). Die Reihenfolge der gezogenen Objekte soll relevant sein. Wie viele Varianten gibt es dann?
n^k

Kombination ohne Zurücklegen

Man hat n Objekte und zieht nacheinander k Objekte ohne diese nach der Ziehung zurückzulegen. Die Reihenfolge der gezogenen Objekte soll nicht relevant sein.
(n über k)=(n über (n-k))=n!/(k!*(n-k)!)
Beispiel Lotto Zahlen: (49 über 6)=49!/(6!*(49-6)!)=13.983.816
Taschenrechner: n Cr k, also 49 Cr 6

Kombinationen mit Zurücklegen

Man hat n Objekte und zieht nacheinander k Objekte, die sofort danach wieder zurückgelegt werden (also mehrfach gezogen werden können). Die Reihenfolge der gezogenen Objekte soll nicht relevant sein.
( (n+k-1) über k )=(n+k-1)! / (k!*(n-1))
Taschenrechner: n Pr k

Beschreibende Deskriptive Statistik

Man hat n Daten, z.B. Messwerte und will die übersichtlich darstellen.

Stamm-Blatt-Diagramm

Man teil für ein Stamm-Blatt-Diagramm oder auch Stengel-Blatt-Diagramm oder Stängel-Blatt-Diagramm, die Daten in verschiedene Äquivalenzklassen auf (Richtwert 10*lg(n)), z.B. bei Dezimalzahlen als Daten die Zahl vor dem Komma als Klasse und die Nachkommastelle um das Merkmal zu repräsentieren.

Absolute Häufigkeit

Man listet alle verschiedenen vorkommenden Daten auf, zusammen mit der Information, wie oft jedes Datum vorgekommen ist (absolute Häufigkeit). Das kann man dann auch graphisch auftragen.

Relative Häufigkeit

Wie bei der absoluten Häufigkeit, nur dass jede absolute Häufigkeit durch n geteilt wird, um die relative Häufigkeit zu berechnen. Vorteil: Verschiedene Teilmengen der Daten lassen sich leicht vergleichen.

Prozentuale Häufigkeit

Wie relative Häufigkeit, nur dass die relativen Häufigkeiten noch mit 100 multipliziert werden.

Klassenbildung

Wenn sehr viele verschiedene Werte in den Daten vorkommen ist die Angabe der Häufigkeiten nicht mehr sehr hilfreich. Daher bildet man Klassen indem man nahe zusammen liegende Werte zusammenfasst, z.B. alles zwischen 1 und 2 in eine Klasse, alles zwischen 2 und 3, usw.
Zählt man dann wie viele Daten in den Klassen liegen erhält man die absoluten oder relativen Klassenhäufigkeiten. Vorgehen:
Jeder Datenwert muss genau in eine Klasse fallen
Möglichst keine offene Klassen (alles von 8 bis Unendlich)
Möglichst alle Klassen gleich breit
Richtwert, bis 1000 Datensätze n^0.5 Klassen, danach 10*lg(n)

Histogramm

In einem Histogramm trägt man die Klassen mit ihren relativen Häufigkeiten auf. Auf der x Achse werden die Intervallgrenzen der Klassen markiert, darüber dann ein Rechteck dass sich in der y Achse bis zur Höhe der relativen Häufigkeit der Klasse erstreckt. Die Fläche aller Rechtecke ist dann zusammen 1 groß.

Empirische Dichte

Die empirische Dichte f(x) ist 0 für alle x die außerhalb einer Klasse liegen und ansonsten die relative Häufigkeit / Breite der Klasse, in der x liegt.

Summenhäufigkeit

Wenn man die Daten bzw. ihre Klassen sortieren kann, gibt man für jede Klasse nicht nur relative bzw. absolute Häufigkeit an, sondern die Summe aus der aller kleiner Klassen plus die der eigenen.

Empirische Verteilungsfunktion

Die empirische Verteilungsfunktion F(x) ist 0 für alle x kleiner als die kleinste Klasse und 1 für alle x größer als die größte Klasse. Ansonsten ist F(x) die Summe aller relativen Häufigkeiten aller Klassen die kleiner oder gleich der Klasse von x sind.

Die Lage von Daten

Modus, Modalwert: Der Wert, der am häufigsten in den Daten vorkommt.
Quantil
Quantil teilt eine sortierte Liste von Daten in Bereiche auf.
Median, xQ0.5=xQmed, teilt die Liste in zwei gleich große Teile auf. Der Median kann bereits bestimmt werden, wenn die kleinsten 50% der Werte bereits vorliegen, z.B. bei einem Wettrennen. Für den Mittelwert muss man dagegen auf den letzten Wert warten.
Quartil, xQ0.25, xQ0.5, xQ0.75 teilt die Liste in 4 gleich große Teile
Quintile, xQ0.2, xQ0.4, xQ0.6, xQ0.8 teilt die Liste in 5 gleich große Teile
Dezile, xQ0.1, xQ0.2, ..., xQ0.9 teilt die Liste in 10 gleich große Teile
Perzentile, teilt die Liste in 1/100 auf. x35%=xQ.35, links davon liegen 35% der Liste.
Berechnung von xQp für eine Liste von n Daten: Nimmt Eintrag n*p aus der Liste oder den berechneten Wert 0.5*(x(n*p)+x((n*p)+1)) falls n*p keine ganze Zahl ist.

Mittelwert
Arithmetisches Mittel
(x1+x2+...+xn)/n

Gewichteter Mittelwert
(x1*g1+x2*g2+...+xn*gn)/(g1+g2+..+gn)
Dabei haben alle Daten eine Gewichtung gx. Falls das Gewicht immer 1 ist, dann Arithmetisches Mittel.
Geometrisches Mittel
(x1*x2*...*xn)^1/n
Anwendung, Daten die relative Änderungen durch Faktoren beschreiben, z.B. Prozente
Harmonisches Mittel:
n / ( 1/x1 + 1/x2 + ... + 1/xn )
Anwendung, die Daten werden als Verhältnis ausgedrückt (z.B. km/h) und in den Werten ist der Zähler konstant, der Nenner unterscheidet sich

Es gilt: Harmonisches Mittel <= Geometrisches Mittel <= Arithmetisches Mittel
Box-Whisker-Plot
In einem Boxplot werden alle Daten zwischen xQ0.25 und xQ0.75 in einer Box zusammengefasst. In dieser Box liegen 50% aller Daten. In der Box wird noch xQ.0.5 markiert. Die Werte außerhalb der Box von xQ0.1 bis xQ0.9 werden durch einen Strich an der Box zusammengefasst (Schnurrhaare, Whiskers). Alle anderen Werte werden einzeln markiert. Stellt man jetzt verschiedene Datensätze nebeneinander jeweils in einer Box dar, sind diese leicht vergleichbar.

Die Streuung von Daten

Spannweite
Differenz zwischen kleinstem und größtem Wert.
Quartisabstand, Interquartisanstand
RQ0.50=xQ0.75-xQ0.25
Siehe Quantil
Mittlere Abweichung vom Median
Summiere für jeden Datenpunkt den Abstand zum Median auf und teile alles durch die Anzahl der Datenpunkte. Leicht zu berechnen aber nicht so aussagekräftig.
MAx=1/n * ∑ | xi-xmedian |
Varianz
Pro Datensatz werden die quadrierten Abstände zum Mittelwert aufsummiert und durch die Anzahl der Datenpunkte - 1 geteilt
1/(n-1) * ∑ ( (xMittelwert-xi)2) = 1/(n-1) * ( ( ∑ xi2 ) - n*xMittelwert2 )
Standardabweichung
Die Wurzel aus der Varianz, Vorteil, der Wert ist in der gleichen Einheit wie die Datensätze und damit leicht zu verstehen.

Gewichtete Varianz / Standardabweichung
Es gibt für jeden Wert xi ein Gewicht gi mit dem ausgedrückt wird, wie stark der Wert gewichtet werden soll.
√( (∑ ( gi ( xi-GewichteterMittelwertx )¹2 )) / (∑(gi)-1) )

Falls alle Gewichte gi 1 sind:
√( (∑ ( xi-Mittelwertx)¹2) / (n-1) )

Variationskoeffizient
Man teilt die Standardabweichung durch den Mittelwert (darf nicht 0 sein) und erhält ein einheitenloses Maß. Z.B. bei Längeneinheiten praktisch weil universell. Multipliziert man das Ergebnis mit 100 ist die Angabe in Prozent.

Bivariante Statistik

Man hat statt einem Merkmal (z.B. Größe von Personen) noch ein zweites Merkmal (z.B. Gewicht)
Kontingenztabelle
Eine Kontingenztabelle ist eine Matrix in der für jede Kombination xiyj die relative Häufigkeit=(absolute Häufigkeit / Anzahl an Messwerten) aufgetragen wird. Pro Zeile und pro Spalte wird noch die Randhäufigkeit ausgerechnet, d.h. die Summe der relativen Häufigkeiten in der Zeile bzw. in der Spalte.
Korrelation
Korrelation: Man hat n mal zwei Merkmale erfasst und möchte wissen ob die beiden Merkmale miteinander korrelieren, also im Zusammenhang stehen. Falls die Werte so aussehen als würden sie korrelieren, in Wirklichkeit sind sie aber unabhängig, hat man eine Scheinkorrelation.
Man kann z.B. in einen Graph eines der Merkmale auf die x Achse und das andere auf die y Achse auftragen, jeder erfasste Datensatz Merkmal 1, Merkmal 2 ist dann ein Punkt. Liegen alle Punkte z.B. auf einer annähernden Gerade kann man eine lineare Korrelation vermuten.
Korrelationskoeffizient
Der Korrelationskoeffizient gibt an wie gut zwei Merkmale linear korrelieren. Man bestimmt für beide Merkmale den Mittelwert xMittelwert, yMittelwert und die beiden Varianzen sx, sy.
1/(n-1) * ∑ ( (xi - xMittelwert)*(yi - yMittelwert) )  / (sx * sy)
Ist das Ergebnis nahe an +1 sind beide positiv linear korreliert (je größer x, um so größer y), ist es nahe an -1 dann ist es negativ linear korreliert (je größer x, um so kleiner y). Ist der Wert nahe 0 dann liegt kein lineare Zusammenhang vor, aber möglicherweise ein nicht linearer.

Ist eines der Merkmale nur ordinal skaliert (man kann nicht damit rechnen, nur nach Größe ordnen) kann man den Koeffizienten natürlich nicht ausrechnen. Dann gibt es mit dem Rangkorrelationskoeffizient aber einen Trick, um das zu umgehen. Man sortiert einfach jeweils beide Merkmale. Der kleinste erhält den Wert 1, der zweite 2, ..., der größte n.
Sind mehrere Merkmale gleich, nimmt man alle Plätze die sie belegen würden, bildet den Mittelwert und weist allen diesen Mittelwert zu. Wären sie z.B. auf Platz 2,3 oder 4 dann erhalten alle (2+3+4)/3=3.
Mit diesen Werten kann man jetzt vorgehen als wären es Merkmale einer Intervallskala.
Regression
Man hat zwei linear korrelierende Merkmale und sucht eine Formel für eine Gerade
f(x)=a*x+b
die den Zusammenhang ausdrückt, damit man mit einem Merkmal das zweite berechnen kann. Dabei ist
a=(Kovarianz sxy) / ( Streuung sx2 )
und
b=yMittelwert-a*xMittelwert

Wahrscheinlichkeitsrechnung

Klassische Wahrscheinlichkeit nach Laplace, nur anwendbar, wenn alle Ergebnisse gleich wahrscheinlich sind
P(A)=(Anzahl der ausgesuchten Ergebnisse) / (Anzahl aller möglichen Ergebnisse)
Sind die Ergebnisse nicht gleich wahrscheinlich, kann man die empirische Wahrscheinlichkeit nutzen, dabei führt man einfach ein paar Experimente durch und zählt dabei die Ergebnisse. Dann teilt man wieder die Anzahl der ausgewählten Ergebnisse / Anzahl durchgeführter Experimente. Je mehr Experimente man durchführt, um so besser wird die empirische Wahrscheinlichkeit (Gesetz der großen Zahlen).

Wahrscheinlichkeitsgesetze

Siehe auch Wahrscheinlichkeitstheorie
Die der Wahrscheinlicheiten aller möglichen Ergebnisse ist 1.
P(Kopf)+P(Zahl)+P(Kante)=1

Man hat eine eine Menge von möglichen Ergebnissen. Zieht man von diesen Ergebnissen das mögliche Ergebnis A ab, so nennt man das das Komplement von A.
P(Komplement(A))=1-P(A)

Die Wahrscheinlichkeit der Vereinigungsmenge ist die Summe der Einzelwahrscheinlichkeiten minus die Wahrscheinlichkeit der Schnittmenge (weil deren Wahrscheinlichkeit sonst doppelt einbezogen würde).
P(A ∪ B)=P(A)+P(B)-P(A ∩ B )

Die bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass A eintritt, wenn B bereits eingetreten ist.
P(A|B)=P(A ∩ B) / P(B)
Beispiel: Man hat bereits eine As Karte vom Stapel gezogen P(B), wie groß ist die Wahrscheinlichkeit, ein weiteres As zu ziehen P(A): P(A|B).
Daraus folgt auch:
P(A ∩ B )=P(A|B)*P(A ∩ B) * P(B)

Ist ein Ergebnis (stochastisch) unabhängig von eine anderen ist
P(A|B)=P(A)

Bayes-Theorem zeigt einen Zusammenhang zwischen P(A|B) und P(B|A)
P(A|B)=P(A)*P(B|A)/ ( P(A)*P(B|A) + P(Komplement(A)*P(B|Komplement(A) )

Wahrscheinlichkeitsverteilung

Bei einem Münzwurf gibt es zwei verschiedene Ergebnisse
x1=Kopf, x2=Zahl
Und man interessiert sich für P(X) wobei X entweder x1 oder x2 annehmen kann. Das ist eine diskrete Zufallsvariable, es gibt auch stetige Zufallsvariablen, die nicht mehr abzählbar sind.

Schreibweise
f(xi)=P(X=xi)=pi
Beim Würfel ist dann z.B.
p3=1/6

Diskete Verteilungsfunktion
Wenn
xi<=x<xj
dann ist
F(x)=∑ pk mit k<i
Diskreter Erwartungswert
Das ist der Mittelwert, den man erhält, wenn man den Versuch immer wieder durchführt
E(X)=∑ ( xi*P(X=xi) )
Diskrete Varianz
Var(X)=E((X-Erwartungswert)2)
Diskrete Standardabweichung
sqrt(Var(X))
Je kleiner die Standardabweichung je einfacher ist es, das Ergebnis vorherzusagen.

FIXME

Beurteilende Statistik

FIXME
19-10-2014 12.19

Statistik Anwendungen


Benfordsches Gesetz

Das Benfordsches Gesetz sagt etwas über die Wahrscheinlichkeit des Auftretens der verschiedenen Ziffern an der n. Stelle einer Zahl in empirischen Datensätzen aus. Beispielsweise ist es viel wahrscheinlicher, dass eine Zahl mit einer 1 beginnt, als dass eine Zahl mit 9 beginnt.
Anwendungsbeispiele sind z.B. der Nachweis von Manipulationen bei Wahlen oder Abrechnungen.

German tank problem

Das German tank problem behandelt das Problem, dass man eine unbekannte Anzahl (N) an produzierten Einheiten hat, die alle eine aufsteigende Seriennummer aufgedruckt haben. Man nimmt dann eine bestimmte Anzahl (k) an Stichproben und ermittelt von allen Stichproben die höchste Seriennummer (m).

Dann erhält man so eine ziemlich gute Schätzung für die höchste Seriennummer (die der Anzahl der produzierten Einheiten entspricht):

N = m + m/k - 1

Anwendung, z.B. wieviele Panzer wurden produziert.

Element anhand von Bewertungen sortieren

How not to sort by average rating
Beispiel
ElementPositiveNegative(Positive - Negative)(Positive ratings) / (Total ratings)
A60040020067%
B55004500100055%
C202100%
D10019999%

Sortieren über den Abstand würde B vor A sortieren ob prozentual mehr positive Bewertungen in A sind.
Sortieren über den prozentuellen Anteil würde C von D sortieren, obwohl viel mehr positive Bewertungen in D enthalten sind.

Lösung: Sortieren über die untere Schranke (- bei +/- in der Formel nehmen) des Wilson-Intervalls für einen Bernoulli Parameter nehmen.

Beispiel für mindestens eine positive oder negative Bewertung (Quelle)
((positive + 1.9208) / (positive + negative) - 1.96 * SQRT((positive * negative) / (positive + negative) + 0.9604) / (positive + negative)) / (1 + 3.8416 / (positive + negative))
19-10-2014 12.37
Powered by PHP Created with Xemacs Valid XHTML 1.0! Valid CSS!