5 Deskriptive Statistik
5.1 Absolute und Relative Häufigkeiten
Absolute und Relative Häufigkeit
- Die absolute Häufigkeit ist die Anzahl (= ganze Zahl) wie oft ein Merkmal in einer Stichprobe vorkommt.
- Die relative Häufigkeit hingegen ist der Anteil den eine Merkmalsauspräung in einer Stichprobe ausmacht.
5.1.1 Absolute Häufigkeiten
Absolute Häufigkeiten können durch table() in einer Tabelle ausgegeben werden:
Die Gesamtzahl der Beobachtungen kann mit sum() ausgegeben werden:
5.1.2 Relative Häufigkeiten
2 Möglichkeiten:
1. Berechnung der relativen Häufigkeit durch Divsion der absoluten Häufigkeiten mit der Gesamtzahl der Beobachtungen.
2. Verwenden der Funktion prop.table().
5.2 Grundbefehle
| R-Befehl | Bedeutung | 
|---|---|
| sum() | Summe | 
| mean() | Mittelwert | 
| var() | Varianz | 
| sd() | Standardabweichung | 
| min() | Minimum | 
| max() | Maximum | 
| quantile() | Quartile | 
| range() | Spannweite | 
| median() | Median | 
Beispiele
Fehlende Werte
Enthalten Daten fehlende Werte (NA), dann ergeben die deskriptiven Berechnungen auch NA. Durch das Argument na.rm = TRUE werden NA-Werte ignoriert:
Funktion summary()
- Mit summary()werden verschiedene deskriptive Statistiken ausgegeben:
- summary()gibt zudem die Anzahl fehlender Werte an:
summary(df_yoga$zufri)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  1.000   3.000   4.000   3.543   4.000   5.000       4 Paket psych
Mit der Funktion describe() aus dem Paket psych lassen sich eine Vielzahl von Verteilungsparametern gleichzeitig ausgeben:
library(psych)
describe(df_yoga$alter, skew = FALSE)
   vars   n  mean   sd median min max range   se
X1    1 120 30.73 5.76   30.5  21  40    19 0.53Optionale Argumente:
- skew = FALSE, um Schiefe und Kurtosis nicht auszugeben
- ranges = FALSE, um u.a. Range, Minimum und Maximum nicht auszugeben
- IQR = TRUE, um Interquartilbereich auszugeben
5.3 Gruppengetrennte Analyse
Wie können wir für die Variablen alter, zufri und angst deskriptive Statistien berechnen, je nachdem in welcher gruppe die Person ists?
head(df_yoga, 5)
    vp geschl alter  gruppe zufri angst
1 AA21      w    37    yoga     5     1
2 AW14      m    31 pilates     4     4
3 BA55      w    38    yoga     4     2
4 BA76      m    35    yoga     5     2
5 BP45      w    23 pilates     4     15.3.1 Logisches Indizieren
Jeweils Teile der Daten durch logisches Indizieren auswählen:
„Berechne den Mittelwert der Spalte alter, aber wähle hierfür nur Werte der Personen aus…
- …gruppe == yoga.“
- …gruppe == pilates.”
5.3.2 Funktion aggregate()
Mit aggregate() können Funktionen für verschiedene Faktorenstufen (und deren Kombination) getrennt berechnet werden
- aggregate(AV ~ UV, FUN = …, data = …)
 - AV: Variable, deren Werte analysiert werden sollen
 
- UV: Faktor(en), mehrere Faktoren werden mit + verbunden
 
- FUN: Welche Funktion (- length, sum, mean, ...) soll berechnet werden?
 
- data: Datensatz
 
Beispiel
Durchschnittliche Zufriedenheit, Gruppen = geschl, gruppe
5.3.3 Funktion describeBy()
- aus dem Paket psych
 
- Anwendung der describe-Funktion getrennt nach Faktor(en)
 
- describeBy(x = …, group = list(…), …)- x: Variable, deren Werte analysiert werden sollen (wie AV bei- aggregate())
- group = list(): Faktor(en)
 
Beispiel describeBy()
Deskriptive Statistiken zu Zufriedenheit nach Gruppe (= geschl)
5.4 Ergänzungen
5.4.1 Bedingte Wahrscheinlichkeiten
Mit prop.table(…, margin = …) werden bedingte Wahrscheinlichkeiten für ein Merkmal ausgegeben. (margin 1 = zeilenweise, margin 2 = spaltenweise)
Bedingte Wahrscheinlichkeit, zeilenweise, gerundet auf 2 Stellen
Bedingte Wahrscheinlichkeit, spaltenweise, gerundet auf 2 Stellen
5.4.2 Skalieren
- Mit dem Befehl scale(…, center = …, scale = …)können Variablen zentriert und z-standardisiert werden.- center: Soll von jedem Wert in der Variable der Variablenmittelwert abgezogen werden? (TRUE = ja)
 
- scale: Soll jeder Wert in der Variable durch die Variablenstandardabweichung dividiert werden? (TRUE = ja)
 
- Zentrierung, wenn nur center = TRUE, z-Standardisierung, wenn beide Argumente mit TRUE definiert wurden.
 
5.4.3 Extremwerte
- Mit dem Argument - trim = …im Befehl- mean()kann der Anteil ausgeschlossener Extremwerte definiert werden
- Das Paket - momentsgibt mit dem Befehl- all.moments()alle statistischen Momente aus, mit- skewness()die Schiefe und mit- kurtosis()den Exzess
5.4.4 Gruppengetrennte Analyse - Funktion tapply()
tapply(X = …, INDEX = list(…), FUN = …)
- X: Variable, deren Werte analysiert werden sollen (wie AV bei- aggregate())
- INDEX = list(): Faktor(en), mehrere Faktoren werden mit “,” verbunden (wie UV bei- aggregate())- Bei einem Faktor muss list()nicht angegeben werden
 
- Bei einem Faktor muss 
- FUN: Welche Funktion (deskriptive Statistik) soll berechnet werden? (wie bei- aggregate())