Statistik – Grundbegriffe

29.05.2017 08:31 Uhr

Inhaltsverzeichnis

  1. Datenmatrix
  2. Verteilungen
  3. Graphische Darstellungen
  4. Maßzahlen
  5. Meßniveaus/Skalentypen
  6. Variablentypen

Datenmatrix

 


aus: Helmut Thome, Grundkurs Statistik für Historiker. Teil I: Deskriptive Statistik, HSR-TRANS 7 (2001), Version 20-12-2001, http://www.wiso.uni-koeln.de/hsr/volume7.htm

 

Die Anordnung von Daten nach diesem Schema führt zur Bildung einer Datenmatrix.
Die Zeilen repäsentieren die Untersuchungseinheiten (UEx), die Spalten bilden die Variablen (Vu) ab. Der Zelleneintrag (Wx u) ist der Wert einer Variable bezogen auf eine Untersuchungseinheit.

 


 

Untersuchungseinheit

 

Merkmalsträger, Objekte, Fall

 

  • z.B. befragte Personen, Familien, Organisationen, Städte, Nachrichtensendungen, …

 


 

Variable (Merkmal)

 

Eigenschaft der Untersuchungseinheit

 

  • z.B. Geschlecht, Lebenszufriedenheit, Nettoeinkommen, Alter, Arbeitslosenquote, …

 


 

Wert – Ausprägung

 

Merkmalsausprägung, in der eine Variable auftritt

 

  • Geschlecht: männlich/weiblich; Lebenszufriedenheit: vollkommen zufrieden / recht zufrieden / eher unzufrieden / höchst zufrieden; Alter: Tage / Wochen / Monate / Jahre
  • keine Beschränkung der Merkmalsklassen, Entscheidung liegt bei Forscher
  • Werte werden häufig nach einem Codeplan codiert: sexus 1/2 (1=weiblich, 2=männlich)

 


 

Auswertung

 

spaltenweise – vertikal

 

  • univariate Auswertung – 1 Spalte
  • bivariate Auswertung – 2 Spalten
  • multivariate Auswertung – 3-n Spalten

 

zeilenweise – horizontal

 

  • mehrere Merkmale eines Merkmalträgers (meist zur Bildung von Testwerten oder neuen Merkmalen)

 

Beispiel:

 


aus: Helmut Thome, Grundkurs Statistik für Historiker. Teil I: Deskriptive Statistik, HSR-TRANS 7 (2001), Version 20-12-2001, http://www.wiso.uni-koeln.de/hsr/volume7.htm

Zum Seitenanfang


Verteilungen

 

Werden zur Datenanalyse mehr als zwei Variablen herangezogen, spricht man von multivariaten Verteilungen, sind es genau zwei Variablen, bivariate Verteilungen und ist es nur eine Variable so handelt es sich um univariate Verteilungen.

 


 

Häufigkeitsverteilungen (frequencies)

 

1. Schritt der Rohdatenuntersuchung: Wie viele Untersuchungseinheiten entfallen auf eine Variablenausprägung?

 

Diese Zusammenstellung nennt sich Häufigkeitsverteilung (frequencies).

 

Es ist die Zuordnung von Variablenwerten zu der Häufigkeit ihres Vorkommens in einer Menge von Untersuchungseinheiten. Bei diskreten Variablen (best. Anzahl diskreter, deutlich voneinander getrennter Werte) kann dies problemlos erfolgen (Nominal- / Ordinalskalen), bei metrischen Daten, die einen Konitinuitätscharakter aufweisen, kann eine solche Zusammenstellung schnell unübersichtlich werden, so dass zunächst Gruppen gebildet werden müssen (gruppierte Daten).

 

Beispiel: Altersangaben in Jahren können u.U. sinnvoll in 10 Jahresschritte eingeteilt werden.

 

 

 

beide Abb. aus: Helmut Thome, Grundkurs Statistik für Historiker. Teil I: Deskriptive Statistik, HSR-TRANS 7 (2001), Version 20-12-2001, http://www.wiso.uni-koeln.de/hsr/volume7.htm

Zum Seitenanfang


Graphische Darstellungen (Diagrammtypen)

 

  • Histogramm und Polygonzughistogrammpolygonzug
  • Streifen- / Balkendiagramm
  • Tortendiagramm
  • typische Verteilungsformen

Zum Seitenanfang


Maßzahlen

Maßzahlen zur Beschreibung univariater Verteilungen

 

  • 3 verschiedene Mittelwerte (Lokalisationsmaße)

 

1. Modus (h) (Modalwert, mode)

 

  • Maßzahl der zentralen Tendenz

 

Der Wert, der häufiger vorkommt als jeder andere. Kann schon bei nominalen Variablen angewandt werden (am stärksten besetzte Kategorie = Modalkategorie).

 

 

Modalwert: 56,00

 

Bimodale Verteilung:

 

 


 

2. Median (X-Schlange)

 

lat. medianus = in der Mitte befindlich

 

  • es liegen ebensoviele Fälle oberhalb, wie unterhalb des Medians
  • Variablen müssen mindestens Ordinalskalenniveau aufweisen

 

Berechnung bei ungerader Fallanzahl (n):

 

Beispiel:

 

11 Fälle: 3,4,4,5,6,7,8,8,8,9,10
X-Schlange = (11 +1)/2 = 6; Wert des 6. Falls = 7.

 

Berechnung bei gerader Fallanzahl (n):

 

Beispiel:

 

10 Fälle:3,4,4,5,6,7,7,8,8,9
X-Schlange = (6+7)/2 = 6.5 (halbierter Wert des 5. und 6. Falles)

 

median


 

3. arithmetisches Mittel (mean)

 

Maßzahl der zentralen Tendenz

 

  • Variablen müssen metrisches Skalenniveau aufweisen
  • die Summe der Meßwerte dividiert durch ihre Anzahl

 

 

Beispiel:

 

10 Fälle (n):3,4,4,5,6,7,7,8,8,9
x quer= (3+4+4+5+6+7+7+8+8+9)/10 = 6,1

Zum Seitenanfang


Messniveaus / Skalentypen

Messen nach Stanley S. Stevens, [1906-1973], US-amerikanischer Psychophysiker

 

„Messen ist die Zuordnung von Zahlen zu Objekten oder Ereignissen gemäß Regeln.”
So zeigen Relationen zwischen den Zahlen analoge Relationen zwischen den Objekten/Ereignissen auf. Dem Sinn dieser Zahlen nach, können vier Meßniveaus bzw. Typen von Skalen unterschieden werden:

 


 

Messniveaus / Skalentypen

 

1. Nominalskalen = niedrigstes Messniveau

 

  • Klassifizierung
  • Satz rangmäßig nicht geordneter Kategorien, mit beliebigen eindeutigen Bezeichnungen (Zahlen, Buchstaben, Wörter, geometrische Formen, ..).
  • scharfe Abgrenzung der Kategorien, d.h. die Kategorien sind vollständig und schließen sich gegenseitig aus.

 

Beispiel:

 

Variable = Haarfarbe;

 

Variablenausprägungen:

 

blond = 1
braun = 2
schwarz = 3
rot = 4

 

Arithmetische Operationen sind bei der Verwendung von Zahlen als Kategorienbezeichnung nicht sinnvoll! Die Kennziffern für die Haarfarben fungieren als bloße Benennungen, sind Namen (= nomen, → nominal).

Zum Seitenanfang


 

2. Ordinalskalen (Rangskalen) = niedriges-mittleres Messniveau

 

  • Klassifizierung + Rangordnung
  • Objekte können gemäß einer Eigenschaft auf einem Kontinuum angeordnet werden ( größer-kleiner-Relation)
  • Die Abstände zwischen den Rangplätzen können unterschiedlich sein.

 

Beispiel:

 

Variable = Schichtenzugehörigkeit;

 

Variablenausprägungen:

 

Oberschicht = 1
Mittelschicht = 2
Unterschicht = 3

 

Arithmetische Operationen sind bei der Verwendung von Zahlen als Kategorienbezeichnung auch hier nicht sinnvoll!

Zum Seitenanfang


 

3. Intervallskalen (Einheitenskalen) = mittleres-höheres Messniveau

 

  • Intervallvariablen / metrische Variablen / metrisches Messniveau
  • Klassifizierung + Rangordnung mit konstanten Abständen
  • Abstände (= Intervalle) zwischen den Merkmalsausprägungen sind über die gesamte Skala hinweg gleich (konstant).

 

Beispiel:

 

Variable = Temperatur

 

Ereignis: Gefrierpunkt von H2O
Variablenausprägungen:

 

Celsius = 0

 

Fahrenheit = 32

 

Ereignis: Siedepunkt von H2O
Variablenausprägungen:

 

Celsius = 100
Fahrenheit = 212

 

Bestimmte arithmetische Operationen sind hier sinnvoll:

 

z.B. Verhältnis der Differenz

 

30 und 10 und 10 und 0 auf der Celsiusskala: (30-10)/(10- 0) = 2
86 und 50 und 50 und 32 der Fahrenheitskala: (86-50)/(50-32) = 2

 

Eine Aussage wie „10°C ist halb so warm wie 20°C“ ist nicht sinnvoll, wie die Transformation zeigt:

 

10°C → 50°F und 20°C → 68°F

 

10/20 = 0.5
50/68 = 0.74

 

 

 

4. Ratioskalen (Verhältnis- oder Proportionalskalen) = höchstes Messniveau

 

  • Klassifizierung + Rangordnung mit konstanten Abständen + invarianter Nullpunkt
  • Skalen zum Zählen von Objekten und Ereignissen, Lebensalter, Körpergröße, -gewicht, …

 

Arithmetische Operationen sind hier sinnvoll:

 

Bei dem Vergleich einer 10 cm langen mit einer 5 cm langen Nase bin ich berechtigt festzustellen, daß die Erstere doppelt so lang ist wie die Zweite.

Zum Seitenanfang


Variablentypen

Quantitative / qualitative Variablen

Objekte, die eine quantitative Merkmalsausprägung aufweisen, können hinsichtlich dieser in eine Rangfolge gebracht werden: größer oder kleiner, höher oder niedriger, mehr oder weniger.

Beispiele:
Einkommen, Alter, Lebenszufriedenheit, Religiosität, …

Objekte, die eine qualitative Merkmalsausprägung aufweisen, können hinsichtlich ihrer Art in Kategorien eingeteilt werden.

Beispiele:
Geschlecht: weiblich / männlich; Nationalität: franz., brit., deut.,andere, keine; Konfession: ev., kath., andere, keine.


Kontinuierliche / diskrete / dichotome Variablen

Quantitative Variablen sind kontinuierliche Variablen, wenn sie einen beliebigen Wert aus einem bestimmten Bereich annehmen können und keine Sprungstellen aufweisen. Sie resultieren i.A. aus einem Messvorgang.

Beispiele: Lebensalter, Körpergröße, …

Diskrete Variablen sind quantitative Variablen, die nur ganz bestimmte Werte aus einem Bereich annehmen können und Lücken und Sprungstellen aufweisen. Sie resultieren i.A. aus einem Zählvorgang.

Beispiele: Anzahl der Kinder, Einwohner, Zuschauer, …

Sonderformen der diskreten Variablen stellen die dichotomen Variablen dar, die nur zwei Merkmalsausprägungen (meist: ja/nein) aufweisen. Analog dazu gibt es trichotome (drei Merkmalsausprägungen) und polytome (mehrstufige) Variablen.


Zum Seitenanfang

Zu den Sitzungsaufgaben SS17

Zu den Hausaufgaben SS17

vorherige Seite

Schlagwörter: