6 Deskriptive Statistik
6.1 Absolute und Relative Häufigkeiten
Absolute und Relative Häufigkeit
- Die absolute Häufigkeit ist die Anzahl (= ganze Zahl) wie oft ein Merkmal in einer Stichprobe vorkommt.
- Die relative Häufigkeit hingegen ist der Anteil den eine Merkmalsauspräung in einer Stichprobe ausmacht.
6.1.1 Absolute Häufigkeiten
Absolute Häufigkeiten können durch table()
in einer Tabelle ausgegeben werden:
Die Gesamtzahl der Beobachtungen kann mit sum()
ausgegeben werden:
6.1.2 Relative Häufigkeiten
2 Möglichkeiten:
1. Berechnung der relativen Häufigkeit durch Divsion der absoluten Häufigkeiten mit der Gesamtzahl der Beobachtungen.
2. Verwenden der Funktion prop.table()
.
6.2 Grundbefehle
R-Befehl | Bedeutung |
---|---|
sum() |
Summe |
mean() |
Mittelwert |
var() |
Varianz |
sd() |
Standardabweichung |
min() |
Minimum |
max() |
Maximum |
quantile() |
Quartile |
range() |
Spannweite |
median() |
Median |
Beispiele
Fehlende Werte
Enthalten Daten fehlende Werte (NA
), dann ergeben die deskriptiven Berechnungen auch NA
. Durch das Argument na.rm = TRUE
werden NA
-Werte ignoriert:
Funktion summary()
- Mit
summary()
werden verschiedene deskriptive Statistiken ausgegeben:
summary()
gibt zudem die Anzahl fehlender Werte an:
summary(df_yoga$zufri)
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
1.000 3.000 4.000 3.543 4.000 5.000 4
Paket psych
Mit der Funktion describe()
aus dem Paket psych lassen sich eine Vielzahl von Verteilungsparametern gleichzeitig ausgeben:
library(psych)
describe(df_yoga$alter, skew = FALSE)
vars n mean sd median min max range se
X1 1 120 30.73 5.76 30.5 21 40 19 0.53
Optionale Argumente:
- skew = FALSE
, um Schiefe und Kurtosis nicht auszugeben
- ranges = FALSE
, um u.a. Range, Minimum und Maximum nicht auszugeben
- IQR = TRUE
, um Interquartilbereich auszugeben
6.3 Gruppengetrennte Analyse
Wie können wir für die Variablen alter
, zufri
und angst
deskriptive Statistien berechnen, je nachdem in welcher gruppe
die Person ists?
head(df_yoga, 5)
vp geschl alter gruppe zufri angst
1 AA21 w 37 yoga 5 1
2 AW14 m 31 pilates 4 4
3 BA55 w 38 yoga 4 2
4 BA76 m 35 yoga 5 2
5 BP45 w 23 pilates 4 1
6.3.1 Logisches Indizieren
Jeweils Teile der Daten durch logisches Indizieren auswählen:
„Berechne den Mittelwert der Spalte alter
, aber wähle hierfür nur Werte der Personen aus…
- …
gruppe == yoga
.“
- …
gruppe == pilates
.”
6.3.2 Funktion aggregate()
Mit aggregate()
können Funktionen für verschiedene Faktorenstufen (und deren Kombination) getrennt berechnet werden
aggregate(AV ~ UV, FUN = …, data = …)
AV
: Variable, deren Werte analysiert werden sollen
UV
: Faktor(en), mehrere Faktoren werden mit + verbunden
FUN
: Welche Funktion (length, sum, mean, ...
) soll berechnet werden?
data
: Datensatz
Beispiel
Durchschnittliche Zufriedenheit, Gruppen = geschl, gruppe
6.3.3 Funktion describeBy()
- aus dem Paket psych
- Anwendung der describe-Funktion getrennt nach Faktor(en)
describeBy(x = …, group = list(…), …)
x
: Variable, deren Werte analysiert werden sollen (wie AV beiaggregate()
)group = list()
: Faktor(en)
Beispiel describeBy()
Deskriptive Statistiken zu Zufriedenheit nach Gruppe (= geschl
)
6.4 Ergänzungen
6.4.1 Bedingte Wahrscheinlichkeiten
Mit prop.table(…, margin = …)
werden bedingte Wahrscheinlichkeiten für ein Merkmal ausgegeben. (margin 1 = zeilenweise, margin 2 = spaltenweise)
Bedingte Wahrscheinlichkeit, zeilenweise, gerundet auf 2 Stellen
Bedingte Wahrscheinlichkeit, spaltenweise, gerundet auf 2 Stellen
6.4.2 Skalieren
- Mit dem Befehl
scale(…, center = …, scale = …)
können Variablen zentriert und z-standardisiert werden.center
: Soll von jedem Wert in der Variable der Variablenmittelwert abgezogen werden? (TRUE = ja)
scale
: Soll jeder Wert in der Variable durch die Variablenstandardabweichung dividiert werden? (TRUE = ja)
- Zentrierung, wenn nur
center = TRUE
, z-Standardisierung, wenn beide Argumente mit TRUE definiert wurden.
6.4.3 Extremwerte
Mit dem Argument
trim = …
im Befehlmean()
kann der Anteil ausgeschlossener Extremwerte definiert werdenDas Paket
moments
gibt mit dem Befehlall.moments()
alle statistischen Momente aus, mitskewness()
die Schiefe und mitkurtosis()
den Exzess
6.4.4 Gruppengetrennte Analyse - Funktion tapply()
tapply(X = …, INDEX = list(…), FUN = …)
X
: Variable, deren Werte analysiert werden sollen (wie AV beiaggregate()
)INDEX = list()
: Faktor(en), mehrere Faktoren werden mit “,” verbunden (wie UV beiaggregate()
)- Bei einem Faktor muss
list()
nicht angegeben werden
- Bei einem Faktor muss
FUN
: Welche Funktion (deskriptive Statistik) soll berechnet werden? (wie beiaggregate()
)