Statistik (3)

19.06.2017 04:30 Uhr

Inhaltsverzeichnis

  1. Quantifizierung
  2. Streuungswerte
  3. Normalverteilung
  4. Kreuztabellen
  5. Korrelation und Regression
  6. Signifikanz
  7. Gütekriterien für Messungen

Quantifizierung

 

Quantifizierung ist die Gewinnung von Größenvorstellungen oder ziffernmäßigen Angaben über Erscheinungen oder Zusammenhänge anhand empirischer statistischer Daten.
aus: wissen.de-Lexikon – http://www.wissen.de

 

Arten quantitativen Arbeitens

  • beschreibend (descriptive)
  • erklärend (analytical)
  • strukturfindend

 


 

Großgruppen statistischer Methoden

  • Tabellenanalyse
  • Regressionsanalyse
  • Korrelationsanalyse
  • Zeitreihenanalyse
  • Faktorenanalyse
  • Clusteranalyse

 

Wichtig: Nicht alle Daten sind für alle statistischen Methoden geeignet!


Streuungswerte

 

Während die Mittelwerte Maße der zentralen Tendenz sind, geben die Streuungswerte Auskunft über die Homogenität bzw. Heterogenität von Variablenwerten.

 


Statistik (3) - Streuungswerte
Zwei Verteilungen mit gleicher zentralen Tendenz (h = = = 10), aber ungleicher Streuung
 

Die wichtigsten Maßzahlen zur Bestimmung der Streuung:

 

1. Range (total range, Spannweite, Variationsweite)
Der Range ist die Differenz zwischen dem größten und dem kleinsten Meßwert:

 

R = xmax – xmin
 

Diese Maßzahl kann nur bei metrischen Daten verwendet werden und informiert eher über die Grenzen der Streuung, als über die Streuung der Verteilung.

 


 

2. (mittlerer) Quartilsabstand (interquartile range, range deviation)
Ein Quartil (Q) ist der Schnittpunkt zwischen Vierteln und trennt die oberen (Q3) bzw. unteren 25 Prozent (Q1) von den mittleren 50 Prozent der Fälle. Das zweite Quartil ist identisch mit dem Median: Q2 =

 



Veranschaulichung von Quartilen einer Verteilung
 

Quartilabstand = Q3 – Q1
mittlere Quartilabstand = QA = (Q3 – Q1)/2

 

für symmetrischen Verteilungen gilt: Q2 – Q1 = Q3 – Q2
für linksschiefe Verteilungen gilt: Q2 – Q1 > Q3 – Q2
für rechtsschiefe Verteilungen gilt: Q2 – Q1 < Q3 – Q2
Diese Aussagen sind richtig!

 

Der Quartilabstand ist sinnvoll immer dann zu bestimmen, wenn die mittleren 50 Prozent der Fälle von besonderem Interesse sind, was meistens bei extrem schiefen Verteilungen oder solchen mit sehr extremen Werten der Fall ist.

 

Analog dazu lassen sich die Werte in beliebig große Unterteilungen (Quantile) einteilen. Erfolgt die Einteilung in zehn Abschnitte, spricht man von ‚Dezil'(D), sind es hundert, von ‚Centil'(C).

 

Für eine sinnvolle Interpretation müssen die Variablen mindestens intervallskalierte Werte aufweisen.

 

Während der Range und der Quartilabstand nur auf zwei Werten basiert, beziehen die nun folgenden Streuungsmaße den Mittelwert ein. Da die Summe der Abweichungen aller Meßwerte von ihrem arithmetischen Mittel immer 0 ist, werden diese Maße mit der absoluten Abweichung oder der quadrierten Abweichung bestimmt.

Zum Seitenanfang


 

3. Durchschnittliche Abweichung      (average deviation)
Die durchschnittliche Abweichung (AD) ist der Durchschnitt der absoluten Abweichungen aller Meßwerte von ihrem arithmetischen Mittel:

 

 

aus: Helmut Thome, Grundkurs Statistik für Historiker. Teil I: Deskriptive Statistik, HSR-TRANS 7 (2001), Version 20-12-2001, http://www.wiso.uni-koeln.de/hsr/volume7.htm

 

Die Richtung der Abweichung bleibt bei dieser Maßzahl unberücksichtigt (Entfernen aller Vorzeichen), es werden die absoluten Werte der gemessenen Abweichung verwendet.

 

Dieses anschauliche Streuungsmaß hat (leider) in letzter Zeit an Bedeutung zu Gunsten der folgenden Maße verloren.

 


 

Standardabweichung und Varianz
Das gängiste Streuungsmaß ist die Standardabweichung (s), die durch Ziehen der Quadratwurzel der Varianz (s2) bestimmt wird:

 


 

aus: Helmut Thome, Grundkurs Statistik für Historiker. Teil I: Deskriptive Statistik, HSR-TRANS 7 (2001), Version 20-12-2001, http://www.wiso.uni-koeln.de/hsr/volume7.htm

 

Die Varianz ist also die durch die Anzahl der Fälle dividierte Summe der quadrierte Abweichung aller Meßwerte von ihrem arithmetischen Mittel. Dementsprechend wird zunächst zu jedem Meßwert der Abstand zum arithmetischen Mittel bestimmt und quadriert. Alle diese Werte werden addiert und durch die Anzahl der Fälle geteilt.

 

Durch das Quadrieren der Mittelwertabweichungen wird erreicht, dass sich die Abweichungen in der Summe nicht ausgleichen. Um daraus eine lineare Maßzahl zu erhalten, wird aus der Varianz die Quadratwurzel gezogen und man erhält die Standardabweichung.

 

Die Standardabweichung (s) wie folgt definiert:

 


 

aus: Helmut Thome, Grundkurs Statistik für Historiker. Teil I: Deskriptive Statistik, HSR-TRANS 7 (2001), Version 20-12-2001, http://www.wiso.uni-koeln.de/hsr/volume7.htm

 

Grundsätzlich sind diese beiden Streuungsmaße gleichwertig. Für die descriptive Statistik ist die Standardabweichung oft leichter handhabbar, da die Einheit dieses Maßes nicht quadriert ist.
Beispiel:

 

Varianz s2 = 49 min2
Standardabweichung s  =  7 min

 

Diese Maßzahlen setzen metrische Daten vorraus und berücksichtigen alle Fälle der Verteilung. Aus diesem Grund werden sie für weiterführende Berechnungen häufig eingesetzt.

 


 

Variationskoeffizient
Der Variationskoeffizient (V) ist der Quotient aus der Division von Standardabweichung (s) und arithmetische Mittel() und drückt die Standardabweichung als Anteil des Mittelwertes aus:

 

V = s /

 

Wird dieser Wert nun mit 100 multipliziert wird die Standardabweichung als Prozentwert des Mittelwertes ausgedrückt. Dieser Wert wird anstelle der Standardabweichung verwendet, wenn für die zu treffende Aussage die Konstanz der Verhältnisse wichtiger ist, als die Konstanz der absoluten Beträge. Dies ist der Fall, wenn Verteilungen mit sehr unterschiedlichen Mittelwerten verglichen werden sollen.

 


 

z-Werte (Standardwerte, standard measures, z-scores)

 

Durch die z-Transformation eines Variablenwertes wird es möglich, diesen mit anderen aus derselben oder anderen Verteilungen zu vergleichen, da durch die Umwandlung ein standardisierter Wert erzeugt wird.

Zum Seitenanfang


Normalverteilung

Eine Normalverteilung (Gauß-Verteilungskurve, Glockenkurve) ist eine symmetrische, unimodale, glockenförmige Verteilung. Modus, Median und arithmetisches Mittel fallen also auf einen Wert.

Statistik (3) - Normalverteilung
Die entscheidenden Eigenschaften und der große Nutzen einer Normalverteilung ist darin zu sehen, dass bei einer normalverteilten Variable in dem Intervall zwischen

  • + und – 1 Standardabweichung 68,26 % aller Fälle (34% über dem Mittelwert, 34% darunter),
  • + und – 2 Standardabweichung 95,44 % aller Fälle (48% zwischen dem Mittelwert und +2 Standardabweichungen, 48% zwischen dem Mittelwert und -2 Standardabweichungen)
  • + und – 3 Standardabweichung 99,72 % aller Fälle

liegen.

      Statistik (3) - Normalverteiung 2


Beispiel:

Nehmen wir den berühmt-berüchtigten Intelligenzquotienten (IQ) als Beispiel: Dieser ist per definitionem normalverteilt, mit Mittelwert 100 und Standardabweichung 15. Die Hälfte der (nicht hirngeschädigten) Bevölkerung hat unterdurchschnittliche Intelligenz (IQ-Werte unter 100). Um dagegen einen guten Universitätsabschluss erfolgreich zu erreichen brauche man – so nehmen wir nicht ganz unrealistisch an – einen IQ von 130, das heißt: zwei Standardabweichungen oberhalb des Mittelwerts. Eine Person mit einem IQ von 130 ist demnach intelligenter als (50% + 48% =) 98% der Bevölkerung.
aus: http://www.lrz-muenchen.de/services/schulung/unterlagen/grundbegriffe/grundbegriffe-7.html

Zum Seitenanfang


Bivariate Tabellen (Kreuztabellen)

contingency table, Kontingenztabelle, Kontingenztafel

Eine Kreuztabelle stellt die gemeinsamen Häufigkeitsverteilungen zweier nominal- oder ordinalskalierter, manchmal zu Überblickszwecken auch gruppierter metrischer Variablen dar.
Der genaue Inhalt einer Kreuztabelle hängt vom Zweck der Darstellung ab: im allgemeinen ist es sinnvoll, bei den Randverteilungen die absoluten Häufigkeiten anzugeben, in den Zellen der Tabelle Prozentwerte. Wird (wie meistens) zwischen einer unabhängigen (erklärenden) und einer abhängigen (zu erklärenden) Variablen unterschieden, so sollte die unabhängige Variable in den Kopf (als Spaltenvariable) und die abhängige an den Rand (als Zeilenvariable) gestellt werden.

Statistik (3) - Bivariate Tabelle

 

Bestimmung der Stärke oder Schwäche eines Zusammenhangs:

  1. intervallskalierte Variablen: Pearson´schen Korrelationskoeffizienten
  2. ordinalskalierte Variablen: Spearman Korrelationskoeffizienten

Grundsätzliche Interpretationsmöglichkeit des Korrelationskoeffizienten r:

Wert von r Interpretation
  0 < r <= 0,2 sehr geringe Korrelation
0,2 < r <= 0,5 geringe Korrelation
0,5 < r <= 0,7 mittlere Korrelation
0,7 < r <= 0,9 hohe Korrelation
0,9 < r <= 1 sehr hohe Korrelation

Beispiel für den Zusammenhang der Variablen Geschlecht und Psyche:

Statistik (3) - Bivariate Tabellen

 

Da ordinalskalierte Variablen vorliegen, ist Spearman von Interesse:
r = 0,439 –> es liegt eine geringe Korrelation vor
sig = 0,00 < 0,001 –> höchst signifikant (geringer Irrtum)

Zum Seitenanfang


Korrelation und Regression

Korrelation

Die Korrelation misst den Zusammenhang zwischen zwei quantitativen Merkmalen. Eine Maßzahl für die Stärke der Korrelation ist der Korrelationskoeffizient.

So wird der Korrelationskoeffizient r (PEARSONsche Produkt-Moment-Korrelations-Koeffizient) zur Bestimmung der Beziehung zwischen zwei metrischen Variablen verwendet.
Er kann Werte zwischen -1 und +1 annehmen. Je größer r ist, desto stärker ist die Beziehung zwischen den Variablen.

Bivariate Verteilungen können mit einem Streudiagramm veranschaulicht werden:

Statistik (3) - Korrelation
Creative Commons 2.0 Lizenz http://www.univie.ac.at/ksa/elearning

Die x-Achse repräsentiert immer die unabhängige Variable, die y-Achse die abhängige.

Fragestellungen können beispielsweise folgendermaßen lauten:
Wie sehr hängen die Ausgaben für Wohnzwecke (abhängige Variable) von dem Einkommen (unabhängige Variable) eines Privathaushaltes ab?

Aufgrund der Punktewolke kann eine Tendenz abgelesen werden, die bei linearen Beziehungen eine Gerade darstellt und auch rechnerisch als Regressionsgerade bestimmt werden kann.


Regression

Als lineare Regression bezeichnet man die vermittels einer linearen Funktion beschriebene Abhängigkeit eines quantitativen Merkmals von einem anderen quantitativen Merkmal.

Sollen nun Voraussagen getroffen werden (z.B. Ein Haushalt xy hat ein Einkommen von 4000 Euro; wie hoch darf die Miete sein, das die Wohnung für diesen Haushalt noch interessant ist?), ist der wahrscheinlichste Wert der, der auf der Regressionsgerade liegt.

Zum Seitenanfang


Signifikanz in der Statistik

Die Signifikanz bestimmt die Aussagekraft von Daten. Alltagssprachlich meint signifikant meist wesentlich, hauptsächlich, bedeutungsvoll oder gewichtig. Anders in der Statistik: dort sind Ergebnisse signifikant, wenn es unwahrscheinlich ist, dass sie durch Zufall zustande kamen. Ab wann von einem Zufall ausgegangen werden soll/kann, wird mit einem vorab bestimmten Schwellenwert festgelegt.

Vor der Durchführung eines Signifikanztestes wird also eine Grenze α festgelegt, das Signifikanzniveau, ab der nicht mehr von Zufälligkeit ausgegegangen wird. In der Regel liegt diese bei 0,05, 0,02 oder 0,01.

Soll eine Hypothese verifiziert werden, kann dies durch Falsifizieren der Nullhypothese geschehen:
wenn die Wahrscheinlichkeit, das die Nullhypothese zufällig ist, kleiner ist als α und dann die Ausgangshypothese angenommen wird, läßt sich sagen, dass die Irrtumswahrscheinlichkeit, dass eine richtige Nullhypothese irrtümlich verworfen wurde, höchstens α ist. Das bedeutet bei α ≤ 0,01, das maximal 1% Wahrscheinlichkeit besteht, das das Ergebnis zufällig zustande gekommen ist und somit ist der Zusammenhang zwischen den zwei Variablen der Ausgangshypothese signifikant.

Zum Seitenanfang


Gütekriterien für Messungen

Messungen sollten grundsätzlich objektiv, zuverlässig und gültig sein.

Objektivität in diesem Zusammenhang besagt, dass ein Meßinstrument unabhängig von demjenigen, der es anwendet, die gleichen Ergebnisse erzeugt.

Die Reliabilität (Zuverlässigkeit) eines Messinstrumentes ist das Maß für die Reproduzierbarkeit der Ergebnisse. Also, dass bei wiederholter Messung unter gleichen Bedingungen auch das gleiche Ergebnis produziert wird.

Objektive und zuverlässige Meßinstrumente müssen nicht notwendig valide (gültig) sein. Die Wiederholung einer Lüge vor unterschiedlichen Personen führt nicht zur Wahrheit!

Die Validität eines Meßinstrumentes besagt, ob ein Meßinstrument auch das misst, was es messen soll.

Beispiel: Mißt ein Intelligenztest wirklich die Intelligenz eines Menschens?

Zum Seitenanfang


Zu den Sitzungsaufgaben SS17

Zu den Hausaufgaben SS17

Schlagwörter: