{ "cells": [ { "cell_type": "code", "execution_count": 1, "id": "ab7baffe-bae1-4eba-aecf-a4eba1754d00", "metadata": { "tags": [ "remove-cell" ] }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "---------------------------------\n", "Working on the host: Joachims-MacBook-Pro.local\n", "\n", "---------------------------------\n", "Python version: 3.10.2 | packaged by conda-forge | (main, Feb 1 2022, 19:30:18) [Clang 11.1.0 ]\n", "\n", "---------------------------------\n", "Python interpreter: /opt/miniconda3/envs/srh/bin/python\n" ] } ], "source": [ "%matplotlib inline\n", "# Load the \"autoreload\" extension\n", "%load_ext autoreload\n", "# always reload modules\n", "%autoreload 2\n", "# black formatter for jupyter notebooks\n", "#%load_ext nb_black\n", "# black formatter for jupyter lab\n", "%load_ext lab_black\n", "\n", "%run ../../src/notebook_env.py" ] }, { "cell_type": "markdown", "id": "bffcaca9-b28c-4de7-bbea-f8039ca936fb", "metadata": {}, "source": [ "# Das Positionsmaß" ] }, { "cell_type": "code", "execution_count": 2, "id": "09dcd210-a6b5-499f-81ac-0f187ffea863", "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import pandas as pd\n", "import scipy.stats as stats" ] }, { "cell_type": "markdown", "id": "bce57223-61ad-4a66-98a6-92ff12f60571", "metadata": {}, "source": [ "Ein Positionsmaß bestimmt die Position eines einzelnen Wertes im Verhältnis zu anderen Werten in einer Stichprobe oder einem Populationsdatensatz. Anders als der Mittelwert und die Standardabweichung sind auf **Quantilen** basierende deskriptive Maße nicht empfindlich gegenüber dem Einfluss einiger weniger extremer Beobachtungen. Aus diesem Grund werden deskriptive Maße, die auf Quantilen basieren, häufig denjenigen vorgezogen, die auf dem Mittelwert und der Standardabweichung basieren ({cite:t}`fahrmeirstatistik` s.60).\n", "\n", "Quantile sind Punkte, die den Bereich der Daten in zusammenhängende Intervalle mit gleichen Wahrscheinlichkeiten unterteilen. Bestimmte Quantile sind besonders wichtig: Der **Median** eines Datensatzes unterteilt die Daten in zwei gleiche Teile: die unteren $50 \\%$ und die oberen $50 \\%$. **Quartile** unterteilen die Daten in vier gleiche Teile und **Perzentile** unterteilen sie in Hundertstel oder $100$ gleiche Teile. Beachten Sie, dass der Median auch das $50$-te Perzentil ist. **Dezile** unterteilen einen Datensatz in Zehntel ($10$ gleiche Teile), und die **Quintile** unterteilen einen Datensatz in Fünftel ($5$ gleiche Teile). Es gibt immer ein Quantil weniger als die Anzahl der gebildeten Gruppen (z. B. gibt es **3** Quartile, die die Daten in **4** gleiche Teile unterteilen!)." ] }, { "cell_type": "markdown", "id": "2a9bf3f1-5926-4995-bcd8-84a9991f08b5", "metadata": { "tags": [] }, "source": [ "## Quartile und Interquartilsbereich" ] }, { "cell_type": "markdown", "id": "6cc61d18-b090-4226-b135-93f4228b7595", "metadata": {}, "source": [ "**Quartile** unterteilen einen geordneten Datensatz in **vier gleiche Teile**. Diese drei Maße werden als **erstes Quartil** $(Q1)$, **zweites Quartil** $(Q2)$ und **drittes Quartil** $(Q3)$ bezeichnet. Das zweite Quartil ist dasselbe wie der Median eines Datensatzes. Das erste Quartil ist der Wert des mittleren Terms unter den Beobachtungen, die kleiner als der Median sind, und das dritte Quartil ist der Wert des mittleren Terms unter den Beobachtungen, die größer als der Median sind ({cite:t}`fahrmeirstatistik` s.59)." ] }, { "cell_type": "markdown", "id": "7bac4dcf-549f-41f9-971a-d96579ea46e1", "metadata": {}, "source": [ "![Alt-Text](_img/median.png)" ] }, { "cell_type": "markdown", "id": "57ca73e5-3f1a-4fd0-a874-5553f837758f", "metadata": {}, "source": [ "Ungefähr $25 \\%$ der Werte in einem geordneten Datensatz sind kleiner als $Q1$ und etwa $75 \\%$ sind größer als $Q1$. Das zweite Quartil, $Q2$, unterteilt einen geordneten Datensatz in zwei gleiche Teile; daher sind das zweite Quartil und der Median identisch. Etwa $75 \\%$ der Datenwerte sind kleiner als $Q3$ und etwa $25 \\%$ sind größer als $Q3$. Die Differenz zwischen dem dritten Quartil und dem ersten Quartil eines Datensatzes wird als **Interquartilsbereich** ($IQR$) bezeichnet ({cite:t}`fahrmeirstatistik` s.61)." ] }, { "cell_type": "markdown", "id": "2e56e957-0aa9-4283-b4d3-43f32e496b47", "metadata": {}, "source": [ "$$ IQR=Q3−Q1 $$" ] }, { "cell_type": "markdown", "id": "e1a22dae-d1e1-442d-ac5e-2daa76277345", "metadata": {}, "source": [ "Wechseln wir zu Python und testen wir seine Funktionalität zur Berechnung von Quantilen/Quartilen. Wir werden die `nc_score`-Variable des `students` Datensatzes verwenden, um Quartile und den $IQR$ zu berechnen. Die `nc_score`-Variable entspricht der Numerus-Clausus-Punktzahl jedes Studenten." ] }, { "cell_type": "markdown", "id": "de028378-a0de-47c8-af33-7152ead9eabe", "metadata": {}, "source": [ "Zunächst werden die Daten unterteilt und ein Histogramm erstellt, um die Verteilung der Variablen genauer zu untersuchen." ] }, { "cell_type": "code", "execution_count": 3, "id": "8cab92df-a8f1-4426-b633-7680e0e355f8", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Lese Daten ein\n", "df = pd.read_csv(\"../../data/students.csv\")\n", "\n", "# Histogramm\n", "df[\"nc_score\"].hist(bins=15)\n", "plt.xlabel(\"Numerus Clausus\")\n", "plt.ylabel(\"Häufigkeit\")\n", "plt.title(\"Histogramm von 'nc_score'\")\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "a8e11aa7-63a7-4610-970a-997717c6f3d0", "metadata": {}, "source": [ "Um die Quartile für die Variable nc_score zu berechnen, wenden wir die Funktion `np.quantile` an. Um die Quartile für die Variable `nc_score` zu berechnen, schreiben wir also einfach:" ] }, { "cell_type": "code", "execution_count": 4, "id": "2b4a7431-643d-4ab7-a6d0-63188a3addda", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "1. Quantil des nc_score: 1.46\n", "2. Quantil des nc_score: 2.04\n", "3. Quantil des nc_score: 2.78\n", "4. Quantil des nc_score: 4.0\n" ] } ], "source": [ "for e, q in enumerate([0.25, 0.5, 0.75, 1]):\n", " print(f\"{e+1}. Quantil des nc_score: {np.quantile(df['nc_score'], q)}\")" ] }, { "cell_type": "markdown", "id": "26e101e6-04d0-4a87-ac05-165169f67963", "metadata": {}, "source": [ "**Hinweis:** Nicht alle Statistiker definieren Quartile auf genau dieselbe Weise. Eine ausführliche Diskussion der verschiedenen Methoden zur Berechnung von Quantilen finden Sie in dem Online-Artikel \"Quartiles in Elementary Statistics\" von E. Langford (2006)." ] }, { "cell_type": "markdown", "id": "a74919c9-ad25-4b97-9cfa-57f4dd746db7", "metadata": {}, "source": [ "Um den $IQR$ für die Variable `nc_score` zu berechnen, schreiben wir entweder..." ] }, { "cell_type": "code", "execution_count": 5, "id": "fb1db9b0-d0f8-4cf0-945a-639109f69bb7", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1.3199999999999998" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Berechne Interquartil Abstand mit Funktion np.percentile()\n", "q1, q3 = np.percentile(df[\"nc_score\"], [25, 75])\n", "iqr = q3 - q1\n", "iqr" ] }, { "cell_type": "markdown", "id": "ebc2f8b4-4bc0-4249-b612-3afac9be6266", "metadata": {}, "source": [ "...oder wir wenden die eingebaute Funktion `iqr` aus dem Modul `scipy.stats` an:" ] }, { "cell_type": "code", "execution_count": 6, "id": "85243a86-924b-4a1c-aad4-0a5d4cb631af", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1.3199999999999998" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "stats.iqr(df[\"nc_score\"], rng=(25, 75))" ] }, { "cell_type": "markdown", "id": "f6e0ba95-83ba-4d7a-93e4-9820db3fe211", "metadata": { "tags": [] }, "source": [ "Wir können die Aufteilung der Variablen `nc_score` in Quartile visualisieren, indem wir ein Histogramm erstellen und ein paar zusätzliche Codezeilen hinzufügen." ] }, { "cell_type": "code", "execution_count": 7, "id": "40b59d1d-89a2-4f07-9dc7-8aa33364a78d", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Plotte die Liste als Histogramm mit Quartilen\n", "df[\"nc_score\"].hist(bins=15)\n", "plt.xlabel(\"nc_score\")\n", "plt.ylabel(\"Häufigkeit\")\n", "plt.title(\"Histogramm der Variable Numerus Clausus\")\n", "\n", "# Zeiche vertikale Linien bei Q1, Q2, Q3, Q4\n", "for e, q in enumerate([0.25, 0.5, 0.75, 1]):\n", " plt.axvline(x=np.quantile(df[\"nc_score\"], q), color=f\"C{e+1}\", label=f\"Q{e+1}\")\n", "plt.legend()" ] }, { "cell_type": "markdown", "id": "c18e90d1-55b1-4da2-8f2f-b5d8c4aa53fd", "metadata": { "tags": [] }, "source": [ "## Die 5-Punkte-Zusammenfassung" ] }, { "cell_type": "markdown", "id": "b8fb72e9-4b82-4ee8-8f70-6e92cdca3f7c", "metadata": {}, "source": [ "Aus den drei Quartilen $(Q1, Q2, Q3)$können wir ein Maß für die Lage der Mitte (den Median, $Q2$) und ein Maß für die Variation der beiden mittleren Quartale der Daten, $Q2-Q1$ für die zweite Quartile und $Q3-Q2$ für die dritte Quartile ableiten. Die drei Quartilen sagen jedoch nichts über die Variation der ersten und vierten Quartile aus." ] }, { "cell_type": "markdown", "id": "f142cc4c-f663-46f0-94a9-c1598cb8d1fb", "metadata": {}, "source": [ "Um diese Informationen zu erhalten, beziehen wir auch die Beobachtungen des Minimums und des Maximums mit ein. Die Variation der ersten Quartile kann als Differenz zwischen dem Minimum und der ersten Quartile, $Q1-Min$, gemessen werden, und die Variation der vierten Quartile kann als Differenz zwischen der dritten Quartile und dem Maximum, $Max-Q3$, gemessen werden. Somit liefern das Minimum, das Maximum und die Quartile zusammen unter anderem Informationen über Zentrum und Variation ({cite:t}`fahrmeirstatistik` s.62)." ] }, { "cell_type": "markdown", "id": "4dcdf2fd-50c6-410e-ac0e-a27a8fac4f60", "metadata": {}, "source": [ "Die so genannte **Tukey-Fünf-Punkte-Zusammenfassung** (nach dem Mathematiker John Wilder Tukey) eines Datensatzes besteht aus den Werten $Min, Q1, Q2, Q3$ und $Max$ des Datensatzes." ] }, { "cell_type": "markdown", "id": "870edf0a-6df7-4898-b62e-2bfb2520cd4c", "metadata": {}, "source": [ "Die Fünf-Punkte-Zusammenfassung lässt sich in Python durch `np.percentile` und die `min()`, `max()` Funktionen berechnen. Zu Demonstrationszwecken berechnen wir die Fünf-Punkte-Zusammenfassung für die Variable `nc_score`" ] }, { "cell_type": "code", "execution_count": 8, "id": "fda94f80-df22-4713-b7f3-f6c068eaad27", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Min: 1.0\n", "Q1: 1.46\n", "Median: 2.04\n", "Q3: 2.78\n", "Max: 4.0\n" ] } ], "source": [ "# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen\n", "df = pd.read_csv(\"../../data/students.csv\", index_col=0)\n", "\n", "# Berechne Fünf-Zahlen-Zusammenfassung\n", "scores = df[\"nc_score\"]\n", "\n", "# Berechne die Quartilen\n", "q1, median, q3 = np.percentile(scores, [25, 50, 75])\n", "\n", "# Berechne minimal/maximal Datenpunkte\n", "data_min, data_max = min(scores), max(scores)\n", "\n", "# Ausgabe der Daten\n", "print(f\"Min: {data_min}\")\n", "print(f\"Q1: {q1}\")\n", "print(f\"Median: {median}\")\n", "print(f\"Q3: {q3}\")\n", "print(f\"Max: {data_max}\")" ] }, { "cell_type": "markdown", "id": "d42b9b54-5ad6-4f0d-8914-0aafb06a89d9", "metadata": {}, "source": [ "Diese Funktion liefert Minimum, untere Quartile, Median, obere Quartile und Maximum für die Eingabedaten." ] }, { "cell_type": "markdown", "id": "c713d147-bd21-4259-863e-7301632cb0f5", "metadata": {}, "source": [ "In Python gibt es eine ähnliche Methode namens `describe()`, die ähnliche Statistiken liefert." ] }, { "cell_type": "code", "execution_count": 9, "id": "f11e6b39-8639-4cf8-a0f5-621b319b33c7", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ageheightweightnc_scorescore1score2online_tutorialgraduatedsalary
count8239.0000008239.0000008239.0000008239.0000004892.0000004892.0000008239.0000008239.0000001753.000000
mean22.541571171.38075072.9981312.16648168.16496369.4946850.3862120.21276942522.112253
std6.06511111.0775298.6351620.81154814.05176214.3952510.4869100.40929010333.139992
min18.000000135.00000051.4000001.00000030.00000031.0000000.0000000.00000011444.140000
25%20.000000163.00000066.5000001.46000058.00000059.0000000.0000000.00000035206.540000
50%21.000000171.00000071.8000002.04000070.00000071.0000000.0000000.00000041672.010000
75%23.000000180.00000078.5000002.78000078.00000080.0000001.0000000.00000049372.540000
max64.000000206.000000116.0000004.00000097.00000098.0000001.0000001.00000075596.790000
\n", "
" ], "text/plain": [ " age height weight nc_score score1 \\\n", "count 8239.000000 8239.000000 8239.000000 8239.000000 4892.000000 \n", "mean 22.541571 171.380750 72.998131 2.166481 68.164963 \n", "std 6.065111 11.077529 8.635162 0.811548 14.051762 \n", "min 18.000000 135.000000 51.400000 1.000000 30.000000 \n", "25% 20.000000 163.000000 66.500000 1.460000 58.000000 \n", "50% 21.000000 171.000000 71.800000 2.040000 70.000000 \n", "75% 23.000000 180.000000 78.500000 2.780000 78.000000 \n", "max 64.000000 206.000000 116.000000 4.000000 97.000000 \n", "\n", " score2 online_tutorial graduated salary \n", "count 4892.000000 8239.000000 8239.000000 1753.000000 \n", "mean 69.494685 0.386212 0.212769 42522.112253 \n", "std 14.395251 0.486910 0.409290 10333.139992 \n", "min 31.000000 0.000000 0.000000 11444.140000 \n", "25% 59.000000 0.000000 0.000000 35206.540000 \n", "50% 71.000000 0.000000 0.000000 41672.010000 \n", "75% 80.000000 1.000000 0.000000 49372.540000 \n", "max 98.000000 1.000000 1.000000 75596.790000 " ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.describe()" ] }, { "cell_type": "markdown", "id": "27ffba86-812f-4d57-a445-7d461531ae2c", "metadata": { "tags": [] }, "source": [ "## Perzentile und Perzentilrang" ] }, { "cell_type": "markdown", "id": "07961b4f-1042-42fa-8d81-f97344e6e010", "metadata": { "jp-MarkdownHeadingCollapsed": true, "tags": [] }, "source": [ "**Perzentile** unterteilen einen geordneten Datensatz in $100$ gleiche Teile. Jeder (geordnete) Datensatz hat $99$ Perzentile, die ihn in $100$ gleiche Teile unterteilen. Das **k-te** Perzentil wird mit $P_k$ bezeichnet, wobei $k$ eine ganze Zahl im Bereich von $1$ bis $99$ ist. Das $25$-te Perzentil wird zum Beispiel mit $P_{25}$ bezeichnet." ] }, { "cell_type": "markdown", "id": "3303aaee-c62d-4449-ab3e-e65c0c8afc76", "metadata": {}, "source": [ "So kann das **k-te** Perzentil, $P_k$, als ein Wert in einem Datensatz definiert werden, bei dem etwa $k\\%$ der Messungen kleiner als der Wert von $P_k$ und etwa $(100-k)$ der Messungen größer als der Wert von $P_k$ sind\n", "\n", ".\n", "\n", "Der ungefähre Wert des **k-ten**.\n", "Perzentils, bezeichnet mit $P_k$, ist " ] }, { "cell_type": "markdown", "id": "68552dec-e707-4d6f-be89-1af1b4bae631", "metadata": { "tags": [] }, "source": [ "$$ P_k = \\frac{kn}{100} $$" ] }, { "cell_type": "markdown", "id": "dcf4b9c2-95a5-4d3f-aeb0-7de1b122e350", "metadata": { "tags": [] }, "source": [ "wobei **k** die Nummer des Perzentils bezeichnet und **n** den Stichprobenumfang darstellt.\n", "\n", "Als Übung berechnen wir das $38$-te, das $50$-te und das $73$-te Perzentil der Variablen `nc_score` in Python. Zunächst berechnen wir das 38. Perzentil gemäß der oben angegebenen Gleichung. Dann wenden wir die `np.percentile()`-Funktion von Python an, um das $38$-te, $50$-te und $73$-te Perzentil der Variablen `nc_score` zu ermitteln." ] }, { "cell_type": "code", "execution_count": 10, "id": "78263a25-c11e-427e-a028-f7658b7406e8", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Die 38-te Perzentile ist 3131.\n" ] } ], "source": [ "# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen\n", "df = pd.read_csv(\"../../data/students.csv\", index_col=0)\n", "\n", "scores = df[\"nc_score\"].sort_values()\n", "\n", "# Berechne 38-te Perzentile\n", "k = 38\n", "n = len(scores)\n", "print(f\"Die {k}-te Perzentile ist {round((k*n)/100)}.\")" ] }, { "cell_type": "code", "execution_count": 11, "id": "cc332043-7e7c-4fb3-a60a-f2cff96e2ef5", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "stud_id\n", "403145 1.0\n", "884117 1.0\n", "832302 1.0\n", "499028 1.0\n", "924359 1.0\n", " ... \n", "676841 4.0\n", "679521 4.0\n", "706167 4.0\n", "941727 4.0\n", "806767 4.0\n", "Name: nc_score, Length: 8239, dtype: float64" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "scores" ] }, { "cell_type": "markdown", "id": "2c6c3cad-b3d7-48aa-a5e9-5ee7a63823f1", "metadata": {}, "source": [ "Wir wählen den Wert anhand dieser Zahl in der geordneten Liste `nc_score` aus und vergleichen ihn mit den Perzentilwerten." ] }, { "cell_type": "code", "execution_count": 12, "id": "e5aad000-aa33-40f4-8660-d30bcc208e93", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1.74" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "scores.iloc[3131]" ] }, { "cell_type": "code", "execution_count": 13, "id": "d75a9a1e-ff2f-4629-9d8e-57c2d8c87247", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[1.74 2.04 2.71]\n" ] } ], "source": [ "quartiles = np.percentile(scores, [38, 50, 73])\n", "print(quartiles)" ] }, { "cell_type": "markdown", "id": "8c546576-912a-443e-b26f-56bd059883d8", "metadata": {}, "source": [ "Das hat gut funktioniert! Sie können prüfen, ob der Median der Variablen `nc_score` dem $50$-te Perzentil $(2,04)$ entspricht, wie oben berechnet.\n", "\n", "Wir können auch den **Perzentilrang** für einen bestimmten Wert $x_i$\n", "eines Datensatzes mit der folgenden Gleichung berechnen: " ] }, { "cell_type": "markdown", "id": "d8eb04f7-91df-46dd-b128-2308de09bd85", "metadata": {}, "source": [ "$$ \\text{Perzentil Rang für} \\ x_i = \\frac{ \\text{Werte kleiner als} \\ x_i}{ \\text{Gesamtanzahl der Werte im Datensatz}} $$" ] }, { "cell_type": "markdown", "id": "bd104765-7d5c-4a5a-80ae-63fb0e5fcddd", "metadata": {}, "source": [ "Der Perzentilrang von $x_i$ gibt den Prozentsatz der Werte im Datensatz an, die kleiner als $x_i$ sind.\n", "\n", "In Python gibt es keine eingebaute Funktion zur Berechnung des Perzentilrangs. Es ist jedoch relativ einfach, eine solche Funktion selbst zu schreiben." ] }, { "cell_type": "code", "execution_count": 14, "id": "ed9cd2d5-fcfa-4610-811b-44457d2dbe43", "metadata": {}, "outputs": [], "source": [ "# Definiere Funktion my_percentile_rank\n", "def my_percentile_rank(x, data: pd.Series):\n", " \"\"\"Computes the percentile rank\n", " Args:\n", " x: int or float number\n", " data: Pandas Series\n", " \"\"\"\n", " return sum(data < x) / len(data)" ] }, { "cell_type": "markdown", "id": "45ef2c9f-7960-488a-adb6-91a19d8d35f6", "metadata": {}, "source": [ "Jetzt berechnen wir zum Beispiel den Perzentilrang für einen Numerus clausus von $2,5$." ] }, { "cell_type": "code", "execution_count": 15, "id": "1f105ebb-fdd1-4b5d-ac26-51ed046485f3", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.6627017841971113" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "my_percentile_rank(2.5, scores)" ] }, { "cell_type": "markdown", "id": "f2cb164b-8754-4ee9-b36c-6a277be8ccc3", "metadata": {}, "source": [ "Wenn wir das Ergebnis auf den nächsten ganzzahligen Wert runden, können wir feststellen, dass etwa $66 \\%$ der Studenten in unserem Datensatz einen Numerus clausus von mehr als $2,5$ hatten." ] }, { "cell_type": "markdown", "id": "1bd8ad82-0afe-4533-8409-b0cfb015219b", "metadata": {}, "source": [ "## Ausreißer und Boxplots" ] }, { "cell_type": "markdown", "id": "6ccafe9a-b65f-4e48-9b38-e3ac24331c3b", "metadata": {}, "source": [ "### Ausreißer\n", "Bei der Datenanalyse ist die Identifizierung von Ausreißern und damit von Beobachtungen, die deutlich aus dem Gesamtmuster der Daten herausfallen, sehr wichtig. Ein Ausreißer erfordert besondere Aufmerksamkeit. Er kann das Ergebnis eines Mess- oder Aufzeichnungsfehlers, einer Beobachtung aus einer anderen Population oder einer ungewöhnlich extremen Beobachtung sein. Beachten Sie, dass eine extreme Beobachtung nicht zwangsläufig ein Ausreißer sein muss, sondern auch ein Hinweis auf eine Schieflage sein kann ({cite:t}`fahrmeirstatistik` s.62)." ] }, { "cell_type": "markdown", "id": "6e3e42f7-db5c-4e48-9666-85c2c5cb95f1", "metadata": {}, "source": [ "Wenn wir einen Ausreißer beobachten, sollten wir versuchen, seine Ursache zu ermitteln. Ist ein Ausreißer auf einen Mess- oder Aufzeichnungsfehler zurückzuführen oder gehört er aus einem anderen Grund eindeutig nicht zum Datensatz, kann er einfach entfernt werden. Wenn jedoch keine Erklärung für einen Ausreißer ersichtlich ist, ist die Entscheidung, ob er im Datensatz verbleiben soll, eine schwierige Ermessensentscheidung." ] }, { "cell_type": "markdown", "id": "c477b418-9216-4c26-b55b-59b5777d01f2", "metadata": {}, "source": [ "Als Diagnoseinstrument zum Aufspüren von Beobachtungen, die Ausreißer sein könnten, können wir Quartile und den **IQR** verwenden. Daher definieren wir die **Untergrenze** und die **Obergrenze** eines Datensatzes. Die untere Grenze ist die Zahl, die $1,5×IQRs$ unter dem ersten Quartil liegt; die obere Grenze ist die Zahl, die $1,5×IQRs$\n", "\n", "über dem dritten Quartil liegt. Beobachtungen, die unterhalb der Untergrenze oder oberhalb der Obergrenze liegen, sind potenzielle Ausreißer ({cite:t}`fahrmeirstatistik` s.61).\n", "\n" ] }, { "cell_type": "markdown", "id": "f056d830-effd-4897-97db-83cf5996fbd6", "metadata": {}, "source": [ "$$\\text{Untere Grenze}=Q1-1,5×IQR$$" ] }, { "cell_type": "markdown", "id": "d216bd92-1f12-4f4a-8be0-94d1b793cd44", "metadata": {}, "source": [ "$$\\text{Obere Grenze}=Q3+1,5×IQR$$" ] }, { "cell_type": "markdown", "id": "45c6aed6-d1cd-49c9-8f48-38c454651ce3", "metadata": {}, "source": [ "### Boxplots" ] }, { "cell_type": "markdown", "id": "56ae26ab-8876-4615-9983-f6f0363e44cb", "metadata": {}, "source": [ " Das Boxplot-Diagramm, auch **Box-and-Whisker-Diagramm** genannt, basiert auf der Fünf-Punkte-Zusammenfassung ({cite:t}`fahrmeirstatistik` s.62) und kann zur grafischen Darstellung von Zentrum und Variation eines Datensatzes verwendet werden. Diese Diagramme wurden von dem Mathematiker John Wilder Tukey erfunden. Es sind mehrere Arten von Boxplots gebräuchlich.\n", "\n", "Box-and-Whisker-Diagramm bieten eine grafische Darstellung der Daten anhand von fünf Maßzahlen: dem Median, dem ersten Quartil, dem dritten Quartil sowie dem kleinsten und dem größten Wert des Datensatzes zwischen der unteren und der oberen Grenze. Der Abstand zwischen den verschiedenen Teilen des Kastens zeigt den Grad der Streuung und Schiefe der Daten an. Durch die Erstellung von Box-and-Whisker-Diagrammen können verschiedene Verteilungen miteinander verglichen werden. Es hilft auch, Ausreißer zu erkennen ({cite:t}`fahrmeirstatistik` s.62). Box-Plots können entweder horizontal oder vertikal gezeichnet werden." ] }, { "cell_type": "markdown", "id": "90e91afd-d096-44b8-9b13-1dce81d75024", "metadata": {}, "source": [ "\n", "![Alt-Text](_img/boxplot.png)\n", "Die Ränder der Box sind immer das erste und dritte Quartil, und der Bereich innerhalb der Box ist immer das zweite Quartil (der Median). Die von den Boxen ausgehenden Linien (Whisker) zeigen die Variabilität außerhalb des oberen und unteren Quartils an. Um einen Boxplot zu erstellen, benötigen wir auch das Konzept der benachbarten Werte. Die **angrenzenden Werte** eines Datensatzes sind die extremsten Beobachtungen, die noch innerhalb der unteren und oberen Grenzen liegen; sie sind die extremsten Beobachtungen, die keine potenziellen Ausreißer sind. Ausreißer können als einzelne Punkte aufgetragen werden. Wenn es in einem Datensatz keine potenziellen Ausreißer gibt, sind die angrenzenden Werte lediglich das Minimum und das Maximum der Beobachtungen ({cite:t}`fahrmeirstatistik`).\n", "\n", "Lassen Sie uns nun eine Reihe von Boxplots erstellen, um den Datensatz `students` eingehender zu analysieren. Wir beginnen mit der Erstellung eines Boxplots für die Variable `nc_score`." ] }, { "cell_type": "code", "execution_count": 16, "id": "604fbf77-2a43-49d6-bd96-24f7697f159a", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
genderheightnc_scoresemester
0Female1601.911st
1Female1721.562nd
2Female1681.243rd
3Male1831.372nd
4Female1751.461st
...............
8234Male1812.916th
8235Male1782.032nd
8236Female1693.723rd
8237Male1952.744th
8238Female1703.29>6th
\n", "

8239 rows × 4 columns

\n", "
" ], "text/plain": [ " gender height nc_score semester\n", "0 Female 160 1.91 1st\n", "1 Female 172 1.56 2nd\n", "2 Female 168 1.24 3rd\n", "3 Male 183 1.37 2nd\n", "4 Female 175 1.46 1st\n", "... ... ... ... ...\n", "8234 Male 181 2.91 6th\n", "8235 Male 178 2.03 2nd\n", "8236 Female 169 3.72 3rd\n", "8237 Male 195 2.74 4th\n", "8238 Female 170 3.29 >6th\n", "\n", "[8239 rows x 4 columns]" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Lese der Datei students.csv; nur Spalten 'nc_score','semester','gender','height' werden verwendet\n", "students = pd.read_csv(\n", " \"../../data/students.csv\", usecols=[\"nc_score\", \"semester\", \"gender\", \"height\"]\n", ")\n", "students" ] }, { "cell_type": "code", "execution_count": 17, "id": "65c48482-c860-415a-8e00-10562ccd9f9d", "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAskAAAFqCAYAAADoVccwAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMSwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/YYfK9AAAACXBIWXMAAAsTAAALEwEAmpwYAAAU80lEQVR4nO3dfazmZX3n8c+XTphYHJ7qITQbB5AN6R92aPUYHzY1u1nSRtMSaZSYGB/atNMoPkRbFyZkdF0etha1Rbu2oRGawkYToeUPgpo4sEsTmcZDMLYpsrpkMXXNFnAk48xGoHz3j/tM9/TynDn3OXOfhxler+RkuK/f9bvv6+Qkd9758Xuo7g4AAPD/nbbVCwAAgO1GJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAYMdWL2D0kpe8pC+88MKtXgYAAKe4hx566Mnunltu27aL5AsvvDALCwtbvQwAAE5xVfX4StucbgEAAAORDAAAA5EMAAADkQwAAAORDAAAA5EMAAADkQwAAIM1RXJV7ayqR6rqz1eZ9/KqOlBVP6qq71bV1VVVJ7RSAADYJGs9kvzRJD93vAlVdV6SrybpJFcmuSXJDUl+dz0LBACAzTb1E/eq6heTvD/Jk6tMvWrxfS/v7qNJ7q2qnUn2VdXN3f3sulcLAACbYKojyVW1I8mtSW5K8r1Vpl+W5MBiIB9zd5Jzk7xqHWsEAIBNNe3pFlcnOT3Jf55i7iVJvjOMPbZkGwAAbGurnm5RVT+X5Nok/767n5ni+rszkxwexg4v2bbcZ+xNsjdJdu/evdr7A5xUTqXrlrt7q5cAsCmOG8lVdVqSzyX5XHc/OOV7ViYX7S3n+eUGu/uWTC7wy/z8vG9g4JSyGWFZVQIWYIZWO5L8viQXJPnVxfOSj6mq2tHdzy2zz9NJdg1ju5ZsAwCAbW21c5KvSPKvkvwgybOLP5cmeUeSZ6vqwmX2+XaSlw1jx14/uu6VAgDAJlntSPLv5CePCv/XJP8jyceS/O9l9jmQ5Heq6ozuPrI49qYkTyX5xrpXCgAAm+S4kdzdP3Hkt6r+b5Knunth8fXFSea6++DilM9mcprGvVV1UyZHnvcluaa7n5nl4gEAYCOs9Yl7y9mf5J8v6uvu72dyr+QdSe7M5K4V13b3J2bwWQAAsOGmfuLeMd39C8PrdyV51zC2kOTfnMC6AABgy8ziSDIAAJxSRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADEQyAAAMRDIAAAxEMgAADKaK5Ko6vaqur6rHq+pIVd1XVa9YZZ97qqqX+XnxbJYOAAAbY8eU8/4wyduTXJ3kfyZ5f5L7q2pPdz++wj57ktyc5AvD+NH1LBQAADbLqpFcVWcl+e0k13T3nyyO/XWSpzIJ5+uX2efsJC9N8uXuPjjLBQMAwEab5kjykSSvTvK/low9m6ST7Fxhnz2L/35z3SsDAIAtsuo5yd39XHc/3N2Hquq0qrooya2ZRPIdK+y2J8mPk1xfVU9V1dGq+mJVnT+7pQMAwMZY690t9id5LJPTLD7e3Y+uMG9PJkeZDye5Isl7krw2yX1VtdLRZwAA2BamvXDvmL9K8t+S/LskH6mq07t7/zLzPpXk8919/+LrB6rqkSQHk1yZ5Palk6tqb5K9SbJ79+41LgkAAGarunt9O1Z9MslVSXZ197NT7nMoyee6+/dWmjM/P98LCwvrWhPAC1VVZb3f5wAvVFX1UHfPL7dt1dMtqur8qvqNqto1bHo4k1MqfmaZfd5aVa8fxmpx/pNTrxwAALbANKdbnJ3JhXpJctuS8V9O8o+LP6N3Jzmzql7Z3c8vjr0xyYuSPLC+pQIAwOZYNZK7+1tVdVeST1bV6ZlcuPfrmVy895vd/XxVXZxkbsk9kW9M8qUkd1TVbUkuSXJdkru6+2sb8YsAAMCsTHt3i3ck+bMk+5Lck+Q1Sd7S3ceOLO9P8uCxyd39lSSXJ/nXSe5Ocm0mR6PfPpNVAwDABlr3hXsbxYV7AGvnwj2AtTuhC/cAAOCFRiQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAYKpIrqrTq+r6qnq8qo5U1X1V9YpV9nl5VR2oqh9V1Xer6uqqqtksGwAANs60R5L/MMn7k/x+kiuSHE1yf1VdsNzkqjovyVeTdJIrk9yS5IYkv3uiCwYAgI22Y7UJVXVWkt9Ock13/8ni2F8neSrJ25Ncv8xuVy2+9+XdfTTJvVW1M8m+qrq5u5+d1S8AAACzNs2R5CNJXp3ktiVjz2ZylHjnCvtcluTAYiAfc3eSc5O8au3LBACAzbNqJHf3c939cHcfqqrTquqiJLdmEsl3rLDbJUm+M4w9tmQbAABsW2u9u8X+TGL37Uk+3t2PrjDvzCSHh7HDS7b9C1W1t6oWqmrhiSeeWOOSAABgttYayX+V5N8m+ViSj1TVdSvMq0yONC/n+XGgu2/p7vnunp+bm1vjkgAAYLZWvXBvqe7+5uJ//veq2pXkw1X1n5a5EO/pJLuGsV1LtgEAwLa16pHkqjq/qn5jMYqXejiTC/d+Zpndvp3kZcPYsdcrnaIBAADbwjSnW5ydyYV6bx7GfznJPy7+jA4kuayqzlgy9qZMbhv3jbUuEgAANtOqp1t097eq6q4kn6yq0zO5cO/XM7l47ze7+/mqujjJXHcfXNzts0nel8n9kW9KcmmSfZnca/mZjfhFAABgVqa9cO8dSf4sk9C9J8lrkrylu4/dO3l/kgePTe7u72dyr+QdSe5MsjfJtd39iRmtGwAANkx1r3QTiq0xPz/fCwsLW70MgJNKVWW7fZ8DbHdV9VB3zy+3ba23gAMAgFOeSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgMGOrV4AwFY699xzc+jQoa1exkxU1VYv4YSdc845+cEPfrDVywAQycAL26FDh9LdW70MFp0KoQ+cGpxuAQAAA5EMAAADkQwAAAORDAAAA5EMAAADkQwAAAORDAAAA5EMAAADkQwAAAORDAAAA5EMAAADkQwAAAORDAAAA5EMAAADkQwAAAORDAAAA5EMAAADkQwAAAORDAAAA5EMAACDqSK5qn6qqj5UVY9U1ZGq+vuqem9V1XH2uaeqepmfF89u+QAAMHs7ppy3P8k1Sa5LcjDJLyX5oyQ/neQPVthnT5Kbk3xhGD+65lUCAMAmWjWSq+q0JB9KclN337A4fKCq5pL8XpaJ5Ko6O8lLk3y5uw/ObrkAALDxpjnd4qwkf5HkL4fxR5PMVdUZy+yzZ/Hfb57A2gAAYEusGsndfai739vdDw+bfi3JP3T3kWV225Pkx0mur6qnqupoVX2xqs6fwZoBAGBDrevuFlX1W0kuy/HPR96Z5HCSK5K8J8lrk9xXVTvX85kAALBZpr1w759V1duS/GmSO5P88QrTPpXk8919/+LrB6rqkUwu+rsyye3De+5NsjdJdu/evdYlAQDATK3pSHJVfTCTwL0nydu6u5eb193fWhLIx8b+JskPk1y6zPxbunu+u+fn5ubWsiQAAJi5qSO5qm7M5Ajx7Une3N3PHGfuW6vq9cNYZXIKxpPrXCsAAGyKqU63qKoPJNmXyX2PP7jSEeQl3p3kzKp6ZXc/vzj2xiQvSvLAehcLAACbYZr7JP9sko8n+dtMHgzy6uFBewtJLkgyt+SeyDcm+VKSO6rqtiSXZPIgkru6+2uzWz4AAMzeNEeSfyWT0yR+PsmDy2yfy+SJfO9MUknS3V+pqsuTfCTJ3UmeTnLr4jwAANjWavUzJzbX/Px8LywsbPUygBeIqsp2+x58IfP3ADZTVT3U3fPLbVvXfZIBAOBUJpIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgIJIBAGAgkgEAYCCSAQBgMFUkV9VPVdWHquqRqjpSVX9fVe+tqjrOPi+vqgNV9aOq+m5VXX28+QAAsF3smHLe/iTXJLkuycEkv5Tkj5L8dJI/GCdX1XlJvprk75JcmeQVSW5I8k9JPnGiiwaYlf7omcl/PGurl8Gi/uiZW70EgCRJdffxJ1SdluSHSW7u7v1Lxv9Lkrd093nL7POxJFcl2d3dRxfHrkvyniTnd/ezK33e/Px8LywsrONXAVi7qspq34NsHn8PYDNV1UPdPb/ctmlOtzgryV8k+cth/NEkc1V1xjL7XJbkwLFAXnR3knOTvGqKzwQAgC2zaiR396Hufm93Pzxs+rUk/9DdR5bZ7ZIk3xnGHluyDQAAtq113d2iqn4rk6PFP3E+8qIzkxwexg4v2Ta+396qWqiqhSeeeGI9SwIAgJlZcyRX1duS/GmSO5P88UrTkqx0Utnz40B339Ld8909Pzc3t9YlAQDATK0pkqvqg0luT3JPkrf1yldXPJ1k1zC2a8k2AADYtqaO5Kq6McmnMonkN3f3M8eZ/u0kLxvGjr1+dE0rBACATTbtw0Q+kGRfkpuTvKu7n1tllwNJLhvufPGmJE8l+cbalwkAAJtn1YeJVNXPJvl4kr9N8oUkrx4enLeQ5IIkc919cHHss0nel+TeqropyaWZRPY1qxyBBgCALTfNE/d+JcnOJD+f5MFlts9l8kS+d2ZywV66+/tVdVkmR57vTPJ/klzb3Z62BwDAtrfqE/c2myfuAZvJE962F38PYDOd6BP3AADgBUUkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBAJAMAwEAkAwDAQCQDAMBgzZFcVZdX1eEp5t1TVb3Mz4vXt1QAANgcO9Yyuapel+SOJDXF9D1Jbk7yhWH86Fo+EwAANttUkVxVO5N8IMl1SY4kOX2V+WcneWmSL3f3wRNcIwAAbKppT7d4Q5J9ST6c5DNTzN+z+O8317MoAADYStNG8teTXNTdn07SU8zfk+THSa6vqqeq6mhVfbGqzl/vQgEAYLNMFcnd/b3u/uEa3ndPkp1JDie5Isl7krw2yX2Lp24AAMC2taYL99bgU0k+3933L75+oKoeSXIwyZVJbl86uar2JtmbJLt3796gJQEAwHQ25D7J3f2tJYF8bOxvkvwwyaXLzL+lu+e7e35ubm4jlgQAAFPbkEiuqrdW1euHscrkFIwnN+IzAQBgVjbqdIt3Jzmzql7Z3c8vjr0xyYuSPLBBnwkAADMxk0iuqouTzC25J/KNSb6U5I6qui3JJZncY/mu7v7aLD4TYFYm/6OL7eCcc87Z6iUAJJndkeT9Sd6ZxSfxdfdXquryJB9JcneSp5PcujgPYNvonuaulttfVZ0yvwvAdlDb7Ut1fn6+FxYWtnoZACcVkQywdlX1UHfPL7dtQy7cAwCAk5lIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgMGaI7mqLq+qw1PMe3lVHaiqH1XVd6vq6qqq9S0TAAA2z461TK6q1yW5I8lxY7eqzkvy1SR/l+TKJK9IckOSf0ryiXWtFAAANslUkVxVO5N8IMl1SY4kOX2VXa5afO/Lu/toknsX32NfVd3c3c+ewJoBAGBDTXu6xRuS7Evy4SSfmWL+ZUkOLAbyMXcnOTfJq9ayQAAA2GzTRvLXk1zU3Z9O0lPMvyTJd4axx5ZsAwCAbWuq0y26+3trfN8zk4wX9x1esu1fqKq9SfYmye7du9f4UQDb22Zds7wZn9M9zXESgJPfmi7cW4PKykecnx8HuvuWJLckyfz8vG9g4JQiLAFOPht1n+Snk+waxnYt2QYAANvWRkXyt5O8bBg79vrRDfpMAACYiY2K5ANJLquqM5aMvSnJU0m+sUGfCQAAMzGTSK6qi6vqNUuGPpvJvZTvrapfraprM7mF3O939zOz+EwAANgoszqSvD/Jg8dedPf3M7lX8o4kd2Zy54pru9vT9gAA2PZqu111PT8/3wsLC1u9DAAATnFV9VB3zy+3baPOSQYAgJOWSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAIDBtrtPclU9keTxrV4HwEnmJUme3OpFAJxkLujuueU2bLtIBmDtqmphpRviA7B2TrcAAICBSAYAgIFIBjg13LLVCwA4lTgnGQAABo4kAwDAQCQDnAKq6vKqOrzV6wA4VTjdAuAkV1WvS/LlJKd194u3ej0ApwJHkgFOUlW1s6r+Q5L7kzy31esBOJWIZICT1xuS7Evy4SSf2eK1AJxSRDLAyevrSS7q7k8nce4cwAzt2OoFALA+3f29rV4DwKnKkWQAABiIZAAAGIhkAAAYiGQAABiIZAAAGIhkAAAYeCw1AAAMHEkGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAgUgGAICBSAYAgIFIBgCAwf8D5xItEW4y2bUAAAAASUVORK5CYII=\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "_ = plt.boxplot(students[\"nc_score\"])" ] }, { "cell_type": "markdown", "id": "aad5b7f7-393d-4023-9a21-561796221f32", "metadata": {}, "source": [ "Wir erhalten sofort einen Eindruck von der Streuung und Schiefe der Daten. Durch Hinzufügen des Arguments `vert = False` zum Boxplot drehen wir den Boxplot um $90^∘$.\n" ] }, { "cell_type": "code", "execution_count": 18, "id": "6abdda90-1b42-473a-8346-3ead9a9df536", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Text(0.5, 1.0, 'Numerus Clausus')" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "fig, ax = plt.subplots()\n", "ax.boxplot(students[\"nc_score\"], vert=False)\n", "ax.set_xlabel(\"Scores\")\n", "ax.set_title(\"Numerus Clausus\")" ] }, { "cell_type": "markdown", "id": "25e0720e-a37b-48cf-b6a0-eec814c182b9", "metadata": {}, "source": [ "Boxplots sind eine sehr leistungsfähige Technik für die explorative Datenanalyse, da es sehr einfach ist, die Variable von Interesse, in unserem Fall die `nc_score`-Variable, auf andere Variablen zu beziehen und in ihrer Relation darstellen. In Python können wir das erreichen indem wir das Argument `by` in der `boxplot` Methode anwenden. \n", "\n", "Zeichnen wir einen Boxplot der Variable `nc_score` in Abhängigkeit von der Variable `semester`. Die `semester`-Variable entspricht dem Semester, in dem der jeweilige Student studiert. Zu Ihrer Information: Die Mindeststudienzeit für die untersuchten Studiengänge ist auf $4$ Semester festgelegt." ] }, { "cell_type": "code", "execution_count": 19, "id": "e3b125ca-cae0-4a83-af12-39b00cdb1dd0", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "_ = students.boxplot(column=\"nc_score\", by=\"semester\", vert=False, notch=True)" ] }, { "cell_type": "markdown", "id": "add94d51-01af-4b09-942a-d74485a54419", "metadata": {}, "source": [ "Interessant, nicht wahr? Die Grafik zeigt, dass Studierende höherer Semester ($>5$-tes Semester) beim *Numerus clausus* tendenziell schlechter abschneiden. Mit anderen Worten: Studierende, die ihr Studium innerhalb der Mindeststudienzeit abschließen, haben tendenziell eine höhere *Numerus-clausus*-Punktzahl.\n", "\n", "Doch damit sind wir noch nicht fertig. Wir wollen wissen, ob das Geschlecht einen Einfluss auf diese Beobachtung hat. Wir können ganz einfach eine Interaktionsvariable einfügen, indem wir die Variable nach den gruppiert werden soll in eckige Klammern setzen : `[var1, var2]`. Außerdem verwenden wir das Argument `notch` in der `boxplot` Methode. Wenn sich die notches zweier Diagramme nicht überschneiden, ist dies ein \"starker Beweis\" dafür, dass sich die beiden Mediane unterscheiden [Chambers, et al. (1983): Graphical Methods for Data Analysis. Wadsworth & Brooks/Cole, S. 62)](https://www.worldcat.org/title/graphical-methods-for-data-analysis/oclc/1035370684). \n", "\n", "Bitte beachten Sie, dass wir eine zusätzliche Zeile Code schreiben müssen, um ein schöneres $y$-Label zu erhalten." ] }, { "cell_type": "code", "execution_count": 20, "id": "991be515-0dc6-47fe-b20f-500649f9632b", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "_ = students.boxplot(\n", " column=\"nc_score\", by=[\"semester\", \"gender\"], vert=False, notch=True\n", ")" ] }, { "cell_type": "markdown", "id": "69d0c1c4-3679-4585-97c2-9b517efd5596", "metadata": {}, "source": [ "Dieses Diagramm ist nicht so einfach zu interpretieren. Es scheint jedoch, dass die oben gemachte Beobachtung bestätigt wird: Studierende aus höheren Semestern ($>5$-tes) schneiden beim *Numerus clausus* tendenziell schlechter ab. Der Einfluss des Geschlechts auf die *Numerus-Clausus*-Werte ist jedoch nicht so eindeutig. Wir werden Methoden der **Inferenzstatistik** anwenden müssen, um zu beurteilen, ob diese Unterschiede *statistisch signifikant* sind oder ob diese Schwankungen um den Median auch rein zufällig sein könnten.\n", "\n", "Zum Abschluss dieses Abschnitts und um auch einen Boxplot mit Ausreißern zu sehen, stellen wir die Variable `height` gegen die Variable `gender` dar." ] }, { "cell_type": "code", "execution_count": 21, "id": "173b785a-b684-4922-b9bf-feeb54f58d9b", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "_ = students.boxplot(column=\"height\", by=\"gender\")" ] }, { "cell_type": "markdown", "id": "1081aba8-135e-4616-aad3-00d248196e1c", "metadata": {}, "source": [ "Offensichtlich, und sicherlich nicht unerwartet, gibt es einen Unterschied in der Größe der Studenten zwischen den verschiedenen Gruppen (männlich oder weiblich). Weibliche Studenten sind tendenziell kleiner als männliche, aber wenn wir uns die Extreme ansehen, gibt es in beiden Gruppen große und kleine Personen. Wie bereits erwähnt, müssen wir jedoch zunächst die Daten auf *statistische Signifikanz* prüfen, um sicher zu sein, dass der beobachtete Größenunterschied nicht nur zufällig ist." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.2" }, "vscode": { "interpreter": { "hash": "31f2aee4e71d21fbe5cf8b01ff0e069b9275f58929596ceb00d14d90e3e16cd6" } } }, "nbformat": 4, "nbformat_minor": 5 }