Kennzahlen (Parameter)

Autor:in

Lukas Mensch

1 Lageparameter

Quelle

S.97-99 von Folie-13.10.2025

Beschreibung zentraler Tendenz (Zentrum) einer (Häufigkeits-)Verteilung
-> “Wo befindet sich ein Großteil der Merkmalswerte einer Verteilung?”

1.1 Modus, Modalwert x_{\text{Mod}}

Häufigster Wert
Anwendung auch bei nominal skalierten Daten x_j

x_{\text{Mod}} =\max(h(x_i))

1.2 Median x_{\text{Med}}

“mittlerer” Wert: Gleichviele Werte ober- und unterhalb
Median = 50%-Quatile (Q2)
Urliste aufsteigend sortiert (nach Rang geordnet)
Mindestens ordinal skaliert

x_{\text{Med}} = \left\{ \begin{array}{cl} x_{\frac{n+1}{2}} & , \text{wenn }n\text{ ungerade} \\ \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & , \text{wenn }n\text{ gerade} \end{array} \right.

1.2.1 Quantile

Quelle

S.110 von Folie-20.10.2025

Quantile unterteilen sortierte Datenreihe in gleich große Teile.

Allgemeine Formel für dem Quantil p:

x_p = \left\{ \begin{array}{cl} \frac{x_{n\cdot p}+x_{n\cdot p + 1}}{2} & , \text{wenn } n\cdot p\text{ ganzzahlig} \\ x_{\left\lfloor n\cdot p +1 \right\rfloor} & , \text{wenn } n\cdot p\text{ nicht ganzzahlig} \end{array} \right.

1.3 Arithmetischer Mittelwert

Sinnvoll nur bei kardinalskalierten Werten
Meist nur sinnvoll bei symmetrischer Verteilung (Schiefe \approx 0)
Nicht robust gegen Außreiser

\bar{x} = \frac{1}{n} \sum_{i=1}^{n}{x_i}

1.3.1 Berechnung bei klassierten Daten

\overline{x}^* = \frac{1}{n} \sum_{j=1}^{n}{(x_j\cdot h(x_j))}

Mit x_j und h(x_j) als:

x_j := \text{Klassenmitte} \\ h(x_j) := \text{Klassenhäufigkeit}

2 Streuungsparameter

Quelle

S.101-102 von Folie-13.10.2025

Beschreiben Streubreite einer (Häufigkeits-)Verteilung um Lageparameter
Voraussetzung: Kardinalskalierte Daten

2.1 Grundlegende Parameter

2.1.1 Spannweite SP

Eng.: range

SP = \max(x_i) - \min(x_i)

-> Nicht robust gegen Ausreißer

2.1.2 Mittlere absolute Abweichung MAD

Eng.: (mean absolute deviation)

MAD = \sum_{i=1}^{n}{|x_i-\bar{x}|}

2.1.3 Summe der Abweichungsquadrate SQ_x

Eng.: sum of squared differences

SQ_x = \sum_{i=1}^{n} (x_i - \bar{x})^2

2.1.4 Empirische Varianz \tilde{s}_x^2

Eng.: variance

\tilde{s}_x^2 = \frac{1}{n} SQ_x = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

2.1.5 Empirische Standartabweichung \tilde{s}

Eng.: standard deviation

\tilde{s} = \sqrt{\tilde{s}_x^2} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2}

2.1.6 Empirischer Variationskoeffizient v

Eng.: coefficient of variation

v = \frac{\tilde{s}}{\bar{x}}

2.2 Streuungsparameter um Median

Quelle

S.104-106 von Folie-13.10.2025

Bei den Median handelt es sich um die 50%-Quantile bzw. auch Q2 oder Q_{0.5}

Darüberhinaus gibt es auch noch weitere Quantilen:

Q1 / Q_{0.25} / 25%-Quantile
-> 25% viele Werte unterhalb und 75% oberhalb
Q3 / Q_{0.75} / 75%-Quantile
-> 75% viele Werte unterhalb und 25% oberhalb

2.2.1 Interquartilsabstand

Sagt aus, wie breit die “mittleren 50%” der Daten streuen.

wenn p=0.25 -> Unteres Quantil
wenn p=0.75 -> Oberes Quantil

Aus unterem und oberend Quantil lässt sich schließlich der Interquartilsabstand (Eng.: interquartile range) berechnen:

IQR=Q_{0.75} - Q_{0.25}

2.2.2 Mittlere absolute Abweichung vom Median

Eng.: mean absolute deviation from the median

MD = \frac{1}{n}\sum_{i=1}^{n}{|x_i-x_{\text{Med}}|}

2.2.3 Graphische Darstellung von Quantilen

Symmetrisch vs. Asymmetrisch

2.3 Stichproben

Bei Stichproben wird nicht durch die Anzahl n sondern durch die Anzahl der Freiheitsgrade n-1 geteilt.

2.3.1 Anzahl der Freiheitsgrade

Es gilt die Summe aller Abweichungen vom Mittelwert (Also Wert x_i minus Mittelwert \bar{x}) ist immer Null.

\begin{align*} \sum_{i=1}^{n} \left( x_i - \frac{1}{n} \sum_{j=1}^{n} x_j \right) &= \underbrace{\left( x_1 - \frac{1}{n} \sum_{j=1}^{n} x_j \right) + \ldots + \left( x_n - \frac{1}{n} \sum_{j=1}^{n} x_j \right)}_{n\text{ mal}} \\ &= (x_1 + \ldots + x_n) - n \cdot \frac{1}{n} \sum_{j=1}^{n} x_j \\ &= \sum_{j=1}^{n} x_j - \sum_{j=1}^{n} x_j \\ &= 0 \end{align*}

Bei einer Stichprobe sind jedoch nicht alle Werte (x_1 bis x_n) bekannt, trotzdem lassen sich die Werte bis x_{n-1} frei wählen, was jedoch dann den letzten Wert x_n festmacht, damit die obere Gleichung erfühlt ist.

Somit gilt, dass die Anzahl der frei zu wählenden Werten - also Freiheitsgrade - n-1 entspricht.

Bei Stichprobenvarianz und -standardabweichung teilt man deswegen durch n-1, um diese “fair” zu berechnen (Man tut so als hätte man n Werte, hat sie jedoch nicht).