{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"id": "a12d5bd6-a5a0-447e-b1fc-6b5890aafb8a",
"metadata": {
"tags": [
"remove-cell"
]
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"---------------------------------\n",
"Working on the host: Joachims-MacBook-Pro.local\n",
"\n",
"---------------------------------\n",
"Python version: 3.10.2 | packaged by conda-forge | (main, Feb 1 2022, 19:30:18) [Clang 11.1.0 ]\n",
"\n",
"---------------------------------\n",
"Python interpreter: /opt/miniconda3/envs/srh/bin/python\n"
]
}
],
"source": [
"%matplotlib inline\n",
"# Load the \"autoreload\" extension\n",
"%load_ext autoreload\n",
"# always reload modules\n",
"%autoreload 2\n",
"# black formatter for jupyter notebooks\n",
"#%load_ext nb_black\n",
"# black formatter for jupyter lab\n",
"%load_ext lab_black\n",
"\n",
"%run ../../src/notebook_env.py"
]
},
{
"cell_type": "markdown",
"id": "a148528b-dd09-4f83-b845-73e8ca7d43bc",
"metadata": {},
"source": [
"# Inferenzmethoden in Regression und Korrelation"
]
},
{
"cell_type": "markdown",
"id": "91fafe7e-d492-45b3-aa26-b14bde9f09df",
"metadata": {},
"source": [
"Das lineare Modell ergibt sich aus der Gleichung"
]
},
{
"cell_type": "markdown",
"id": "9e979fa0-e922-43b0-b3d0-df72e48bd7b2",
"metadata": {},
"source": [
"$$y = \\beta_0 + \\beta_1x+e\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "021de81f-9c40-4271-b186-2519a6746b54",
"metadata": {},
"source": [
"Wobei $\\beta_0$ der Achsenabschnitt, $\\beta_1$ der Regressionskoeffizient und $e$ der Fehlerterm ist. Die beste Regressionsgerade wird durch Anwendung der Methode der kleinsten Quadrate gefunden, um die **Summe der quadratischen Fehler (SSE)** zu minimieren, d. h. die quadratische Differenz zwischen der gemessenen Reaktionsvariablen $y$ und der Modellvorhersage $\\hat y$ zu minimieren, die wie folgt lautet"
]
},
{
"cell_type": "markdown",
"id": "547f54c1-d266-4b56-a638-316fc023a29e",
"metadata": {},
"source": [
"$$SSE = \\sum_{i=1}^n e_i^2=\\sum_{i=1}^n (y - \\hat y)^2\\text{.}$$"
]
},
{
"cell_type": "markdown",
"id": "2aec0788-8216-4f41-ae2f-e3442d7baa14",
"metadata": {},
"source": [
"Im Abschnitt über die *lineare Regression* finden Sie weitere Einzelheiten zum linearen Modell.\n",
"\n",
"Wie auch immer, wir müssen anerkennen, dass wir unsere Modelle, in diesem Fall unser lineares Regressionsmodell, auf Beobachtungsdaten aufbauen. Die Daten stammen also aus einer Grundgesamtheit und deren entsprechenden statistischen Eigenschaften, die uns im Allgemeinen unbekannt sind. Jede Beobachtung stellt also eine Ausprägung der Population dar, die mit dem Begriff Zufallsvariable bezeichnet wird.\n",
"\n",
"Betrachten wir ein Beispiel, wie es in der folgenden Abbildung dargestellt ist. In diesem Beispiel sind die Parameter der Grundgesamtheit bekannt, so dass wir ein lineares Regressionsmodell der Form $y=β_0+β_1x=1+0,25x$ erstellen können"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "bc52f417-b201-43bb-a44e-f97242518700",
"metadata": {
"tags": [
"hide-cell"
]
},
"outputs": [
{
"data": {
"text/plain": [
"Text(0.5, 1.0, 'Grundgesamtheit')"
]
},
"execution_count": 1,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"import numpy as np\n",
"import matplotlib.pyplot as plt\n",
"import random\n",
"from scipy.stats import linregress\n",
"\n",
"\n",
"def generate_dataset_simple(intercept, beta, n, std_dev, min_max_x=(-2, 2), seed=None):\n",
" if seed is not None:\n",
" np.random.seed(seed)\n",
" x = np.linspace(min_max_x[0], min_max_x[1], n)\n",
" e = np.random.randn(n) * std_dev\n",
" y = intercept + x * beta + e\n",
" return x, y\n",
"\n",
"\n",
"x, y = generate_dataset_simple(intercept=1.01, beta=3, n=250, std_dev=3, seed=42)\n",
"(slope, intercept, _, _, _) = linregress(x=x, y=y)\n",
"fig, ax = plt.subplots()\n",
"ax.scatter(x, y)\n",
"ax.plot(x, intercept + slope * x, color=\"k\", linewidth=3)\n",
"ax.text(s=f\"$y={np.round(intercept,2)} + {np.round(slope,2)}x$\", x=-2, y=20, size=28)\n",
"ax.set_title(\"Grundgesamtheit\")"
]
},
{
"cell_type": "markdown",
"id": "cd926238-0129-4252-bae4-b52657b391cb",
"metadata": {},
"source": [
"Wenn wir jedoch eine Zufallsstichprobe aus der Grundgesamtheit nehmen und ein lineares Modell auf der Grundlage der Stichprobendaten erstellen, wird die Regressionslinie der Stichprobe nicht mit der Regressionslinie der Grundgesamtheit übereinstimmen. In der folgenden Abbildung haben wir vier Stichproben mit dem Stichprobenumfang $10$ (blaue Punkte) gezogen. Wir sehen sofort, dass die Regressionslinie der Stichprobe (blaue gestrichelte Linie) nicht mit der Regressionslinie der Grundgesamtheit (graue Linie) übereinstimmt. Um dieser Variabilität Rechnung zu tragen, die auf den Zufallsstichprobenprozess zurückzuführen ist, wird eine Statistik berechnet, indem die folgende Gleichung angewendet wird"
]
},
{
"cell_type": "markdown",
"id": "be1e7181-fa8c-4fe6-9c6c-494a8e81b24e",
"metadata": {},
"source": [
"$$s_e = \\sqrt{\\frac{SSE}{n-2}}\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "965e2f6a-44a9-4f20-b752-3afe875fc289",
"metadata": {},
"source": [
"Wobei SSE für die **Summe der quadratischen Fehler** und $n$ für den Stichprobenumfang steht. Die Statistik $s_e$ wird als **Standardfehler der Schätzung** ($s_e$) oder als **Reststandardfehler** bezeichnet."
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "d4c9365e-fcfe-4c6a-a2d4-25cea3f652d1",
"metadata": {
"tags": [
"hide-cell"
]
},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"fig, ax = plt.subplots(ncols=2, nrows=2)\n",
"ax = np.ravel(ax)\n",
"\n",
"n = 10\n",
"np.random.seed(1)\n",
"for e in range(4):\n",
" idx = np.random.choice(range(len(x)), size=n, replace=False, p=None)\n",
" ax[e].scatter(x, y, color=\"gray\", alpha=0.3)\n",
" ax[e].plot(x, intercept + slope * x, color=\"gray\", linewidth=3)\n",
" _x = x[idx]\n",
" _y = y[idx]\n",
" ax[e].scatter(_x, _y, color=\"blue\")\n",
" (_slope, _intercept, _, stderr, _) = linregress(x=_x, y=_y)\n",
" ax[e].plot(\n",
" x, _intercept + _slope * x, color=\"blue\", linewidth=3, linestyle=\"dashed\"\n",
" )\n",
" ax[e].text(s=f\"$s_e={np.round(stderr,4)}$\", x=-2, y=10, size=18)"
]
},
{
"cell_type": "markdown",
"id": "5f351e25-2074-40cb-97a4-42aa38482aa6",
"metadata": {},
"source": [
"Wie oben dargestellt, variiert die Regressionsgerade der Stichprobe von einer Stichprobe zur anderen und ist daher eine Zufallsvariable. Ihre Verteilung wird als **Stichprobenverteilung der Steigung der Regressionsgeraden** bezeichnet."
]
},
{
"cell_type": "markdown",
"id": "6187366b-fe90-45bf-97c3-7484b6ae99dc",
"metadata": {},
"source": [
"## Inferenz über die Steigung - Der $t$-Test des Regressionskoeffizienten"
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "eee97c57-692e-449a-ae1b-b10f1dded3ae",
"metadata": {},
"outputs": [],
"source": [
"import matplotlib.pyplot as plt\n",
"import numpy as np\n",
"import pandas as pd\n",
"from random import sample\n",
"from scipy.stats import t, linregress"
]
},
{
"cell_type": "markdown",
"id": "1dee1d07-cadc-45c9-88bc-c0fa8f1fb795",
"metadata": {},
"source": [
"Der **$t$-Test des Regressionskoeffizienten** wird angewendet, um zu prüfen, ob die Steigung $\\beta_1$ der Regressionslinie der Grundgesamtheit gleich $0$ ist. Auf der Grundlage dieses Tests können wir entscheiden, ob $x$ ein nützlicher (linearer) Vorhersagewert für $y$ ist.\n",
"\n",
"Die Teststatistik folgt einer $t$-Verteilung mit $df=n-2$ und kann geschrieben werden als"
]
},
{
"cell_type": "markdown",
"id": "8b3f9bc6-caef-4b6d-86cb-43fe6183dd31",
"metadata": {},
"source": [
"$$t =\\frac{\\beta_1}{s_b}= \\frac{\\beta_1}{s_e/\\sqrt{\\sum(x- \\bar x)^2}}\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "f5208195-cd42-476a-8864-c6549ea50a4a",
"metadata": {},
"source": [
"wobei $\\beta_1$ dem Stichprobenregressionskoeffizienten und $s_e$ dem **Reststandardfehler** entspricht $(s_e=\\sqrt{\\frac{SSE}{n-2}}$ und $SSE = \\sum_{i=1}^n e_i^2)$"
]
},
{
"cell_type": "markdown",
"id": "0228dbad-ba8c-4180-9894-46d47380a633",
"metadata": {},
"source": [
"### Intervall-Schätzung von $\\beta_1$"
]
},
{
"cell_type": "markdown",
"id": "1e591671-6031-49ff-ab7f-834507e80c63",
"metadata": {},
"source": [
"Das $100(1-\\alpha)\\%$-Konfidenzintervall für $\\beta_1$ ist gegeben durch"
]
},
{
"cell_type": "markdown",
"id": "70028822-b27c-4607-bde5-05b270413834",
"metadata": {},
"source": [
"$$\\beta_1 \\pm t_{\\alpha/2} \\times \\frac{s_e}{\\sqrt{\\sum(x- \\bar x)^2}}\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "462c5722-6387-4b77-b00c-bf8f7d260c09",
"metadata": {},
"source": [
"wobei $s_e$ dem **Reststandardfehler** (auch als **Standardfehler der Schätzung** bezeichnet) entspricht.\n",
"\n",
"Der Wert von $t$ ergibt sich aus der $t$-Verteilung für das gegebene Konfidenzniveau und $n-2$ Freiheitsgrade."
]
},
{
"cell_type": "markdown",
"id": "a42fba0a-69f1-4b50-93c7-48616788b251",
"metadata": {},
"source": [
"### Der $t$-Test des Regressionskoeffizienten: Ein Beispiel"
]
},
{
"cell_type": "markdown",
"id": "fda00333-06e8-485d-92c7-636aefeb1b01",
"metadata": {},
"source": [
"Um praktische Erfahrungen zu sammeln, wenden wir den **Regressions-$t$-Test** in einer Übung an. Dazu laden wir den `students` Datensatz. Sie können die Datei `students.csv` hier herunterladen. Importieren Sie den Datensatz und geben Sie ihm einen passenden Namen."
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "6ee1e345-05fa-406d-9488-9a4f28080aaf",
"metadata": {},
"outputs": [],
"source": [
"# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen\n",
"students = pd.read_csv(\"../../data/students.csv\", index_col=0)"
]
},
{
"cell_type": "markdown",
"id": "45fcf707-c3f2-4b0f-a759-ff0dd5374ccc",
"metadata": {},
"source": [
"Der `students` Datensatz besteht aus 8239 Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und 16 Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: stud_id, name, gender, age, height, weight, religion, nc_score, semester, major, minor, score1, score2, online_tutorial, graduated, salary."
]
},
{
"cell_type": "markdown",
"id": "1fd4a844-9299-4f90-86ba-2c1065eb9e1c",
"metadata": {},
"source": [
"Um den $t$-Test des Regressionskoeffizienten zu veranschaulichen, untersuchen wir die Beziehung zwischen zwei Variablen, der Körpergröße der Studenten als Vorhersagevariable und dem Gewicht der Studenten als Antwortvariable. **Die Frage ist, ob die Vorhersagevariable `height` nützlich ist, um Vorhersagen über das Gewicht der Studierenden zu treffen.**"
]
},
{
"cell_type": "markdown",
"id": "3a9bf2e9-5ca3-4e9a-ad03-7462d1851116",
"metadata": {},
"source": [
"### Vorbereitung der Daten"
]
},
{
"cell_type": "markdown",
"id": "9f33672e-ea36-4db0-8176-91ff85a5ad9e",
"metadata": {},
"source": [
"Zur Datenaufbereitung ziehen wir eine Zufallsstichprobe von $12$ Studenten aus dem Datensatz und erstellen einen `dataframe` mit den zwei Variablen von Interesse (`height` und `weight`). Außerdem stellen wir die Daten in Form eines Streudiagramms dar, um die zugrunde liegende lineare Beziehung zwischen den beiden Variablen zu visualisieren."
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "65173b81-b5a5-421c-a6d1-2634feb7ef9b",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
height
\n",
"
weight
\n",
"
\n",
" \n",
" \n",
"
\n",
"
3594
\n",
"
169
\n",
"
71.7
\n",
"
\n",
"
\n",
"
4152
\n",
"
181
\n",
"
81.0
\n",
"
\n",
"
\n",
"
7136
\n",
"
148
\n",
"
57.8
\n",
"
\n",
"
\n",
"
5100
\n",
"
173
\n",
"
72.1
\n",
"
\n",
"
\n",
"
339
\n",
"
168
\n",
"
70.7
\n",
"
\n",
"
\n",
"
4433
\n",
"
159
\n",
"
66.1
\n",
"
\n",
"
\n",
"
2767
\n",
"
169
\n",
"
69.5
\n",
"
\n",
"
\n",
"
2727
\n",
"
159
\n",
"
62.5
\n",
"
\n",
"
\n",
"
7099
\n",
"
173
\n",
"
70.7
\n",
"
\n",
"
\n",
"
2388
\n",
"
164
\n",
"
68.5
\n",
"
\n",
"
\n",
"
2124
\n",
"
171
\n",
"
70.8
\n",
"
\n",
"
\n",
"
8170
\n",
"
160
\n",
"
62.9
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" height weight\n",
"3594 169 71.7\n",
"4152 181 81.0\n",
"7136 148 57.8\n",
"5100 173 72.1\n",
"339 168 70.7\n",
"4433 159 66.1\n",
"2767 169 69.5\n",
"2727 159 62.5\n",
"7099 173 70.7\n",
"2388 164 68.5\n",
"2124 171 70.8\n",
"8170 160 62.9"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Nehme Stichprobe\n",
"n = 12\n",
"data = students[[\"height\", \"weight\"]].sample(n, random_state=2)\n",
"data"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "17638aa6-51ff-4265-be4b-f5b6b6ab69cb",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Text(0, 0.5, 'Gewicht')"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAX4AAAEGCAYAAABiq/5QAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8qNh9FAAAACXBIWXMAAAsTAAALEwEAmpwYAAAWF0lEQVR4nO3df5AkZ33f8ff39k46CUfmJJ2IDMY6EcDrncJCt1HAWRSfhE1JlVhSAi4tsUvGUxYhYlMmsbFgUpgkdYnDj6LsLZdiwUHkHzdGqLAQZcdAtBPLkwLhPUmIwwuRERL6cUgLCpBATrc+ffPH9B6zd7t7s3fbM7Pb71dV124/0z3zvUeqz/Y83f10ZCaSpOrYMugCJEn9ZfBLUsUY/JJUMQa/JFWMwS9JFbN10AX04vzzz8+LLrpo0GVI0oZy4MCBb2bmzuPbN0TwX3TRRczOzg66DEnaUCLi0eXaHeqRpIox+CWpYgx+SaoYg1+SKsbgl6SKMfglaQg1m01qtRojIyPUajWazea6vfeGuJxTkqqk2WzSaDTYt28fExMTtNtt6vU6AJOTk6f9/rERpmUeHx9Pr+OXVBW1Wo3p6Wn27NlzrK3VajE1NcXBgwd7fp+IOJCZ4ye0G/ySNFxGRkY4fPgw27ZtO9a2sLDA9u3bOXr0aM/vs1LwO8YvSUNmdHSUdru9pK3dbjM6Orou72/wS9KQaTQa1Ot1Wq0WCwsLtFot6vU6jUZjXd7fk7uSNGQWT+BOTU0xNzfH6Ogoe/fuXZcTu+AYvyRtWo7xS5KAkoM/It4WEV+KiIMR0YyI7RFxbkR8JiIeKn7uKLMGSdJSpQV/RLwQ+FfAeGbWgBHgeuBm4O7MfClwd7EuSeqTsod6tgJnRcRW4GzgSeAa4Lbi9duAa0uuQZLUpbTgz8wngPcBXwcOAd/JzE8DL8jMQ8U2h4ALlts/Im6MiNmImJ2fny+rTEmqnDKHenbQObrfBfwI8LyI+IVe98/MWzNzPDPHd+484ZGRkqRTVOZQz2uBr2XmfGYuAB8Hfgp4KiIuBCh+Pl1iDZKk45QZ/F8HXhURZ0dEAFcCc8BdwA3FNjcAnyixBknScUq7czcz742IO4D7gL8F7gduBX4IuD0i6nT+OLyhrBokSScqdcqGzPxN4DePa36WztG/JGkAvHNXkirG4JekijH4JaliDH5JqhiDX5IqxuCXpIox+CWpYgx+SaoYg1+SKsbgl6SKMfglqWIMfkmqGINfkirG4JekijH4JaliDH5JqhiDX5IqxuCXpIox+CWpYgx+SaoYg1+SKsbgl6SKMfglqWIMfkmqGINfkirG4JekijH4JaliDH5JqhiDX5IqxuCXpIox+CWpYgx+SaoYg1+SKmZrWW8cES8HPtrVdDHwLuD5wK8A80X7OzPzz8qqQ5K0VGnBn5lfAS4BiIgR4AngT4A3AR/IzPeV9dmSpJX1a6jnSuCrmflonz5PkrSCfgX/9UCza/2tEfFgRHw4InYst0NE3BgRsxExOz8/v9wmkqRTUHrwR8QZwM8BHyuabgFeQmcY6BDw/uX2y8xbM3M8M8d37txZdpmSVBn9OOK/CrgvM58CyMynMvNoZj4HfBC4rA81SJIK/Qj+SbqGeSLiwq7XrgMO9qEGSVKhtKt6ACLibOBngDd3Nb8nIi4BEnjkuNckSSUrNfgz8/vAece1/WKZnylJWp137kpSxRj8klQxBr8kVYzBL0kVY/BLUsUY/JJUMQa/JFWMwS9JFWPwS1LFGPySVDEGvyRVjMEvSRVj8EtSxRj8klQxBr8kVYzBL0kVY/BL6qtms0mtVmNkZIRarUaz2Tz5TlpXpT6BS5K6NZtNGo0G+/btY2Jigna7Tb1eB2BycnLA1VVHZOagazip8fHxnJ2dHXQZkk5TrVZjenqaPXv2HGtrtVpMTU1x8ODBAVa2OUXEgcwcP77doR5pExu2YZW5uTkmJiaWtE1MTDA3NzegiqrJ4Jc2qcVhlenpaQ4fPsz09DSNRmOg4T86Okq73V7S1m63GR0dHVBFFZWZQ7/s3r07Ja3N2NhYzszMLGmbmZnJsbGxAVWUuX///ty1a1fOzMzkkSNHcmZmJnft2pX79+8fWE2bGTCby2SqY/zSJjUyMsLhw4fZtm3bsbaFhQW2b9/O0aNHB1ZXs9lk7969zM3NMTo6SqPR8MRuSVYa4/eqHmmTWhxW6T6ROgzDKpOTkwb9gPU0xh8Rb+ilTdLwaDQa1Ot1Wq0WCwsLtFot6vU6jUZj0KVpwHo94n8H8LEe2iQNicWj6qmpqWPDKnv37vVoW6sHf0RcBVwNvDAifqfrpXOAvy2zMEmnz2EVLedkQz1PArPAYeBA13IX8LpyS5M0LIbtfgCdnlWDPzO/kJm3AX8vM2/rWj6emf+7TzVKWka/wni97wfwj8gQWO4az+MX4B8CnwH+F/Aw8DXg4V72XY/F6/ilpfp5Pfx63g/gdfz9xQrX8fca/F8GrgIuAM5bXHrZdz0Wg19aqp83Z23ZsiWPHDmypO3IkSO5ZcuWNb/XMN5UtpmtFPy9Ttnwncz8b5n5dGZ+a3FZ168eknrWzzlv1nOaBefqGQ6rBn9EXBoRlwKtiHhvRLx6sa1olzQA/ZzzZj3vB3CuniGx3NeAxQVorbLMrLbvei4O9UhL9XusfP/+/Tk2NpZbtmzJsbGxU/4cx/j7i9MZ4z+VBXg58EDX8l3gV4Fz6Zwofqj4ueNk72XwSydarzDut41a90a0UvD3NElbRPxH4D2Z+e1ifQfwbzLz3/byrSIiRoAngH8A3AQ8k5m/FRE3F8H/G6vt7yRtkrR2p/sglqsWQx8gO9fwX72Gz78S+GpmPgpcA9xWtN8GXLuG95EknaZeg38kIs5cXImIs4AzV9n+eNcDi3dpvCAzDwEUPy9YboeIuDEiZiNidn5+fg0fJUlaTa/B/4fA3RFRj4hfpjM2f9tJ9gEgIs4Afo41TuiWmbdm5nhmju/cuXMtu0oqeJesltPT7JyZ+Z6I+CKdIZsA/kNmfqrHz7gKuC8znyrWn4qICzPzUERcCDy95qolndTiVAv79u1jYmKCdrtNvV4HcOK2iiv9CVwR8cfApzLzI8X6e4FvdZ3cPTcz377ae3hyV1q7Wq3G9PT0kgextFotpqamOHjw4AArU7+sdHJ31eCPiHZmTkTE/wG6NwwgM/Ock3zo2cBjwMWZ+Z2i7TzgduDFwNeBN2TmM6u9j8Evrd2wPnpR/XNKj17MzIni5985lQ/NzO/Tmdenu+1bdIaMJJVoWB+9qMHr9dGL/z4iXhsRzyu7IEnrw0cvaiW9PnrxEeCNwHQx7POXwD2Z+YmyCpN0enz0olayppO7EfF3gZ8Hfo3OHbenNAS0Vo7xS9LandIYf9fOHwJ+AniKztH+64H71rVCSVJf9HoD13nACPBt4Bngm5npw9ZVGd4Ipc2k1xu4rgOIiFE6D1lvRcRIZr6ozOKkYeCNUNpsep2d8x8DrwEuB3YAnwX+MjM/XG55HY7xa5C8EUob1SndwNW18+8C99AJ+ydLqG9VBr8GyRuhtFGd1rTMmXkT8Dk6J3iJiLMioi9X9EiD5uMCtdn0egPXrwB3AL9XNL0IuLOkmqSh4o1Q2mx6vYHrJuAy4F6AzHwoIpadR1/abLwRSptNr8H/bGYeiQgAImIrSydtkza1yclJg16bRq/X8f9FRLwTOCsifobOQ1U+WV5ZkqSy9Br8NwPzwBeBG4E/zUwHOCVpA1o1+CPimoi4KTOfy8wPAj8GjAPvjIjX96VCSdK6OtkR/9uBu7rWzwB2Az8NvKWkmiRJJTrZyd0zMvOxrvV28bSsZ5ybX5I2ppMd8e/oXsnMt3at7lz/ciRJZTtZ8N9b3Ly1RES8Gfh8OSVJksp0sqGetwF3RsQb+cH8+7uBM4FrS6xLklSSkz1s/WngpyLiCmCsaP7TzJwpvTJJUil6nY9/BjDsJWkT6PUGLknSJmHwS1LFGPzqK59dKw1er7NzSqfNZ9dKw6GnRy8Omo9e3Bx8dq3UX6f1zN1BM/g3B59dK/XXaT1zV1oPPrtWGg4Gv/rGZ9dKw8GTu+obn10rDQfH+CVpk3KMX5IElBz8EfH8iLgjIr4cEXMR8eqIeHdEPBERDxTL1WXWIElaquwx/t8G/jwzXx8RZwBnA68DPpCZ7yv5syVJyygt+CPiHOBy4JcAMvMIcCQiyvpISVIPyhzquRiYBz4SEfdHxIe6ntP71oh4MCI+HBE7VnkPSdI6KzP4twKXArdk5iuB7wE3A7cALwEuAQ4B719u54i4MSJmI2J2fn6+xDIlqVrKDP7Hgccz895i/Q7g0sx8KjOPZuZzwAeBy5bbOTNvzczxzBzfudPnukvSeikt+DPzG8BjEfHyoulK4K8j4sKuza4DnJ1Lkvqo7Kt6poA/Kq7oeRh4E/A7EXEJkMAjwJtLrkGS1KXU4M/MB4Dj7xr7xTI/U5K0Ou/claSKMfglqWIMfkmqGINfkirG4JekijH4JaliDH5JqhiDX5IqxuCXpIox+DV0ms0mtVqNkZERarUazWZz0CVJm0rZc/VIa9JsNmk0Guzbt4+JiQna7Tb1eh2AycnJAVcnbQ6RmYOu4aTGx8dzdnZ20GWoD2q1GtPT0+zZs+dYW6vVYmpqioMHnchVWouIOJCZx8+XZvBruIyMjHD48GG2bdt2rG1hYYHt27dz9OjRAVYmbTwrBb9j/Oqrk43fj46O0m63l7S1221GR0f7Waa0qRn86pvF8fvp6WkOHz7M9PQ0jUZjSfg3Gg3q9TqtVouFhQVarRb1ep1GozHAyqVNJjOHftm9e3dq4xsbG8uZmZklbTMzMzk2Nrakbf/+/Tk2NpZbtmzJsbGx3L9/fz/LlDYNYDaXyVTH+NU3jt9L/eUYvwbO8XtpOBj86hvH76Xh4A1c6pvFG7CmpqaYm5tjdHSUvXv3emOW1GeO8UvSJuUYvyQJMPglqXIMfkmqGINfkirG4JekijH4JaliDH5JqhiDX5IqxuCXpIox+CWpYgx+SaoYg1+SKsbgl6SKKTX4I+L5EXFHRHw5IuYi4tURcW5EfCYiHip+7iizBknSUmUf8f828OeZ+ePATwJzwM3A3Zn5UuDuYl2S1CelBX9EnANcDuwDyMwjmflt4BrgtmKz24Bry6pBknSiMo/4LwbmgY9ExP0R8aGIeB7wgsw8BFD8vGC5nSPixoiYjYjZ+fn5EsuUpGopM/i3ApcCt2TmK4HvsYZhncy8NTPHM3N8586dZdUoSZVTZvA/DjyemfcW63fQ+UPwVERcCFD8fLrEGiRJxykt+DPzG8BjEfHyoulK4K+Bu4AbirYbgE+UVYMk6URbS37/KeCPIuIM4GHgTXT+2NweEXXg68AbSq5BktSl1ODPzAeAE57wTufoX5I0AN65K0kVY/BLUsUY/JJUMQa/JFWMwS9JFWPwS1LFGPySVDEGvyRVjMEvSRVj8EtSxWza4G82m9RqNUZGRqjVajSbzUGXJElDoexJ2gai2WzSaDTYt28fExMTtNtt6vU6AJOTkwOuTpIGKzJz0DWc1Pj4eM7Ozva8fa1WY3p6mj179hxra7VaTE1NcfDgwTJKlKShExEHMvOEiTI3ZfCPjIxw+PBhtm3bdqxtYWGB7du3c/To0TJKlKShs1Lwb8ox/tHRUdrt9pK2drvN6OjogCqSpOGxKYO/0WhQr9dptVosLCzQarWo1+s0Go1BlyZJA7cpT+4unsCdmppibm6O0dFR9u7d64ldSWKTjvFLkio2xi9JWpnBL0kVY/BLUsUY/JJUMQa/JFXMhriqJyLmgUcHXQdwPvDNQRdxCqy7v6y7v6x7ZT+WmTuPb9wQwT8sImJ2uUujhp1195d195d1r51DPZJUMQa/JFWMwb82tw66gFNk3f1l3f1l3WvkGL8kVYxH/JJUMQa/JFWMwV+IiA9HxNMRcbCr7d0R8UREPFAsV3e99o6I+JuI+EpEvG4wVa+t7oi4KCL+X1f7fxmmuov2qaJPvxQR7+lqH4r+LmrpufZh7/OI+GhXbY9ExANdrw1Fn6+l7g3Q35dExOeK2mYj4rKu1/rX35np0jnPcTlwKXCwq+3dwK8ts+1PAF8AzgR2AV8FRjZA3Rd1bzeE/b0H+O/AmcX6BcPW36dQ+1D3+XGvvx9417D1+RrrHur+Bj4NXFX8fjXwPwbR3x7xFzLzHuCZHje/BvjjzHw2M78G/A1w2Un2KcUa6x4aK9T9FuC3MvPZYpuni/ah6e+irrXUPjRW+38lIgL4eaBZNA1Nn6+x7qGxQt0JnFP8/sPAk8Xvfe1vg//k3hoRDxZf23YUbS8EHuva5vGibZgsVzfAroi4PyL+IiJeM7Dqlvcy4DURcW9R398v2jdCf69UOwx3ny96DfBUZj5UrG+EPocT64bh7u9fBd4bEY8B7wPeUbT3tb8N/tXdArwEuAQ4ROcrJUAss+0wXRe7Ut2HgBdn5iuBfw3sj4hzln2HwdgK7ABeBfw6cHtxRDfs/Q0r1z7sfb5okqVHzRuhz+HEuoe9v98CvC0zfxR4G7CvaO9rfxv8q8jMpzLzaGY+B3yQH3z1ehz40a5NX8QPvrIN3Ep1F18jv1X8foDOOOLLBlfpCR4HPp4dnweeozOR1VD3d2HZ2jdAnxMRW4F/Cny0q3no+3y5ujdAf98AfLz4/WMMKFMM/lVExIVdq9cBi2fn7wKuj4gzI2IX8FLg8/2ubyUr1R0ROyNipPj9Yjp1P9z/Cld0J3AFQES8DDiDzuyFQ93fhTtZpvYN0OcArwW+nJmPd7VthD4/oe4N0N9PAv+o+P0KYHGIqr/9Pegz38Oy0Pm6eAhYoPPXtw78AfBF4MHiP8yFXds36BxNfIXiLP2w1w38M+BLdK4euA/4J0NW9xnAH9L5Q3UfcMWw9fdaax/2Pi/a/yvwL5bZfij6fC11D3t/AxPAgaK+e4Hdg+hvp2yQpIpxqEeSKsbgl6SKMfglqWIMfkmqGINfkirG4JcKEfGCiNgfEQ9HxIGI+GxEXLfCtndExI9ExJ9FxPOLtjMj4vZiqoy/ioif7Os/QOqRwS9xbLKvO4F7MvPizNwNXE/nDsru7bYCZObrM/PJzLw6M79dvPxG4NnMfAXwL4F39at+aS0MfqnjCuBIZh6bvz0zH83M6Yj4pYj4WER8Evh0RJwbEXcWR/afi4hXFLu8GPhCRLwK+M90bugCICJ+vfgW8GBE/Lt+/sOk420ddAHSkBijc6fnSl4NvCIzn4mIaeD+zLw2Iq4Afp/OhHiLE229Ebg9M/8EICJ+ls4t+JcV29wVEZdnZ9peqe884peWERG/GxFfiIi/Kpo+k5mLc6tP0JkWg8ycAc6LiB/u2r0JvDMiri3Wf7ZY7qfzx+XH6fwhkAbCI36p40t05nkBIDNviojzgdmi6Xtd2646hW5mfjYiLgc+GRFPF9v/p8z8vfUvW1o7j/iljhlge0S8pavt7BW2vQf45wAR8dPANzPzu4svRsTWzHwE+J/AKPAp4Jcj4oeK118YERes9z9A6pVH/BKQmVkMzXwgIt4OzNM5yv8N4KzjNn838JGIeBD4Pp051hdtAWY7FwnxDeDtmfndiBgFPlu0/1/gF4ChezyjqsHZOSWpYhzqkaSKMfglqWIMfkmqGINfkirG4JekijH4JaliDH5Jqpj/Dwnv6wC8BAhzAAAAAElFTkSuQmCC",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Erzeuge Streudiagramm\n",
"fig, ax = plt.subplots()\n",
"ax.scatter(data[\"height\"], data[\"weight\"], color=\"white\", edgecolor=\"k\")\n",
"ax.set_xlabel(\"Größe\")\n",
"ax.set_ylabel(\"Gewicht\")"
]
},
{
"cell_type": "markdown",
"id": "3c92f076-1780-478c-be23-499da3c622f7",
"metadata": {},
"source": [
"Die visuelle Inspektion bestätigt unsere Vermutung, dass die Beziehung zwischen der Größe und der Gewichtsvariable ungefähr linear ist. Mit anderen Worten: Mit zunehmender Größe neigt der einzelne Student dazu, ein höheres Gewicht zu haben."
]
},
{
"cell_type": "markdown",
"id": "d9185098-f33a-42a4-a84a-1db41b2c0faf",
"metadata": {},
"source": [
"### Überprüfung der Hypothesen"
]
},
{
"cell_type": "markdown",
"id": "8bdc0ce4-d695-465f-9df6-da331dc76b17",
"metadata": {},
"source": [
"Zur Durchführung des **$t$-Test des Regressionskoeffizienten** folgen wir dem schrittweisen Durchführungsverfahren für Hypothesentests. Der **$t$-Test des Regressionskoeffizienten** folgt demselben schrittweisen Verfahren wie in den vorangegangenen Abschnitten beschrieben."
]
},
{
"cell_type": "markdown",
"id": "05ae1d7a",
"metadata": {},
"source": [
"|||\n",
"|---|---|\n",
"|Schritt 1| Geben Sie die Nullhypothese $H_0$ und alternative Hypothese $H_A$ an|\n",
"|Schritt 2|Legen Sie das Signifikanzniveau,$\\alpha$ fest|\n",
"|Schritt 3|Berechnen Sie den Wert der Teststatistik|\n",
"|Schritt 4|Bestimmen Sie den p-Wert|\n",
"|Schritt 5| Wenn $p \\le \\alpha$, $H_0$ ablehnen; ansonsten $H_0$ nicht ablehnen|\n",
"|Schritt 6|Interpretieren Sie das Ergebnis des Hypothesentests|"
]
},
{
"cell_type": "markdown",
"id": "18559db0-5bf0-44d2-a534-00ace0356dc2",
"metadata": {},
"source": [
"**Schritt 1 : Geben Sie die Nullhypothese $H_0$ und alternative Hypothese $H_A$ an**"
]
},
{
"cell_type": "markdown",
"id": "6022d3b6-7d68-4f39-8561-44dd92e216a5",
"metadata": {},
"source": [
"Die Nullhypothese besagt, dass es keinen linearen Zusammenhang zwischen der Größe und dem Gewicht der Personen im Datensatz der Studierenden gibt."
]
},
{
"cell_type": "markdown",
"id": "058cf2dd-1dcc-4f55-af47-3bcf3992b5d5",
"metadata": {},
"source": [
"$$H_0: \\beta_1=0\\text{ (die Vorhersagevariable ist für die Erstellung von Vorhersagen nicht geeignet)}$$"
]
},
{
"cell_type": "markdown",
"id": "356a18e5-af36-4d84-b44a-9ee9f99a8c7b",
"metadata": {},
"source": [
"**Alternative Hypothese**"
]
},
{
"cell_type": "markdown",
"id": "e8749a38-2c92-424a-b408-1ffa56d6bec9",
"metadata": {},
"source": [
"$$H_A: \\beta_1\\ne0\\text{ (die Vorhersagevariable ist für die Erstellung von Vorhersagen geeignet)}$$"
]
},
{
"cell_type": "markdown",
"id": "e695714a-8330-445d-8b4f-e4f06f199073",
"metadata": {},
"source": [
"**Schritt 2: Legen Sie das Signifikanzniveau,$\\alpha$ fest**"
]
},
{
"cell_type": "markdown",
"id": "0006780f-4c1f-4102-9de4-40feeb4cb23f",
"metadata": {},
"source": [
"$$\\alpha = 0,01$$"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "dff20f63-38ca-4d4f-bca2-664acdc62caa",
"metadata": {},
"outputs": [],
"source": [
"alpha = 0.01"
]
},
{
"cell_type": "markdown",
"id": "3436b6b1-63a6-4974-8915-4a62da937841",
"metadata": {},
"source": [
"**Schritt 3 und 4: Berechnen Sie den Wert der Teststatistik und den $p$-Wert**"
]
},
{
"cell_type": "markdown",
"id": "0e072910-ff80-40f8-9722-bcbb315f84bd",
"metadata": {},
"source": [
"Zur Veranschaulichung berechnen wir die Teststatistik manuell in Python. Erinnern Sie sich an die obige Gleichung."
]
},
{
"cell_type": "markdown",
"id": "ca1d3807-0ba0-4cf4-879a-8282950a3daf",
"metadata": {},
"source": [
"$$t =\\frac{\\beta_1}{s_b}= \\frac{\\beta_1}{s_e/\\sqrt{\\sum(x- \\bar x)^2}}$$"
]
},
{
"cell_type": "markdown",
"id": "0886613b-52c0-4fc7-b765-67a1a5bb52bb",
"metadata": {},
"source": [
"wobei $\\beta_1 = \\frac{cov(x,y)}{var(x)}$, und"
]
},
{
"cell_type": "markdown",
"id": "dfe1ec95-4f2c-473c-abf9-a378f8b1eaa8",
"metadata": {},
"source": [
"$$s_e = \\sqrt{\\frac{SSE}{n-2}}\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "b490759f-832a-4399-b465-070442d8cf58",
"metadata": {},
"source": [
"wobei $SSE = \\sum_{i=1}^n e_i^2 = \\sum_{i=1}^n (y - \\hat y)^2$. Die Teststatistik folgt einer $t$-Verteilung mit $df=n-2$. Um $\\hat y = \\beta_0+\\beta_1x$ zu berechnen, müssen wir $\\beta_0$ kennen, das als $\\beta_0 = \\bar y -\\beta_1 \\bar x$ berechnet wird."
]
},
{
"cell_type": "markdown",
"id": "15b3375b-23ba-456e-8eb2-07c35ceb3a2c",
"metadata": {},
"source": [
"Um nicht durch die verschiedenen Berechnungsschritte verwirrt zu werden, führen wir einen Schritt nach dem anderen durch.\n",
"\n",
"- Erstellen Sie das lineare Modell durch Berechnung des Achsenabschnitts ($β_0$) und des Regressionskoeffizienten ($β_1$)."
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "e452c980-4e75-4309-8049-d9e34258843f",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"0.6507615230460922"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"y_bar = data[\"weight\"].mean()\n",
"x_bar = data[\"height\"].mean()\n",
"\n",
"# Lineares Modell\n",
"beta1 = np.cov(data[\"height\"], data[\"weight\"]) / data[\"height\"].var()\n",
"beta1[0][1]"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "9684fce9-581d-467a-b23c-e46679c0f3f9",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"-39.44320641282566"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"beta0 = y_bar - beta1[0][1] * x_bar\n",
"beta0"
]
},
{
"cell_type": "markdown",
"id": "f27cee18-2ebd-4a2d-b0de-e58c5140a627",
"metadata": {},
"source": [
"Berechnen Sie die Summe der quadrierten Fehler ($SSE$) und den Reststandardfehler ($s_e$)."
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "e6b2a0c4-31da-48e8-9a77-f791f4db9e02",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"30.38618436873755"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne SSE\n",
"y_hat = beta0 + beta1[0][1] * data[\"height\"]\n",
"SSE = sum((data[\"weight\"] - y_hat) ** 2)\n",
"SSE"
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "88ae353f-16f6-4259-90a2-d6c1ccec3451",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.743163341994592"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne Reststandardfehler\n",
"se = np.sqrt(SSE / (n - 2))\n",
"se"
]
},
{
"cell_type": "markdown",
"id": "594ba7cb-99f7-4c5f-b025-46a6682a41fb",
"metadata": {},
"source": [
"- Berechnen Sie den Wert der Teststatistik."
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "0d85223c-8560-4da4-afad-a6695aa5f1d1",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"10.766100516207496"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne Teststatistik\n",
"tw = beta1[0][1] / (se / np.sqrt(sum((data[\"height\"] - x_bar) ** 2)))\n",
"tw"
]
},
{
"cell_type": "markdown",
"id": "78d260e9-d0cf-4e61-ae64-81f8b71894c6",
"metadata": {},
"source": [
"Der numerische Wert der Teststatistik ist $\\approx 10,7661$.\n",
"\n",
"Um den $p$-Wert zu berechnen, wenden wir die Funktion `t.cdf()` an. Erinnern Sie sich daran, wie man die Freiheitsgrade berechnet."
]
},
{
"cell_type": "markdown",
"id": "d71f3bb6-627b-4025-a742-1144bdd2383c",
"metadata": {},
"source": [
"$$df = n - 2= 10$$"
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "dda09562-e9b2-4fd7-bd6e-4678fa6c4213",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"8.048424329265031e-07"
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne p-Wert\n",
"df = data.shape[0] - 2\n",
"\n",
"# zweiseitiger Test\n",
"p_upper = t.sf(abs(tw), df=df)\n",
"p_lower = t.cdf(-abs(tw), df=df)\n",
"p = p_upper + p_lower\n",
"p"
]
},
{
"cell_type": "markdown",
"id": "ed9b1b0b-32c1-4424-85a0-ba3b011bc952",
"metadata": {},
"source": [
"**Schritt 5: Wenn $p \\le \\alpha , H_0$ ablehnen; ansonsten $H_0$ nicht ablehnen**"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "f6c051c1-d7b2-4192-b99d-77553658700c",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"True"
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"p <= alpha"
]
},
{
"cell_type": "markdown",
"id": "64d241d4-6b90-48af-bce1-b4f854b66fd0",
"metadata": {},
"source": [
"Der $p$-Wert ist kleiner als das angegebene Signifikanzniveau von $0,01$; wir verwerfen $H_0$. Die Testergebnisse sind statistisch signifikant auf dem $1 \\%$-Niveau und liefern einen sehr starken Beweis gegen die Nullhypothese."
]
},
{
"cell_type": "markdown",
"id": "4f80c4b7-4ed1-4c84-8c97-8eb9b220d34a",
"metadata": {},
"source": [
"**Schritt 6: Interpretieren Sie das Ergebnis des Hypothesentests**"
]
},
{
"cell_type": "markdown",
"id": "777fda34-e756-4af6-b2bf-54cd2ae0b062",
"metadata": {},
"source": [
"$p=8,0484243 \\cdot 10^{-7}$. Bei einem Signifikanzniveau von $1 \\%$ lassen die Daten den Schluss zu, dass die Variable Größe ein guter Schätzer für das Gewicht der Studenten ist."
]
},
{
"cell_type": "markdown",
"id": "3ae02d0e-2085-498a-93af-ac0755a21385",
"metadata": {},
"source": [
"### Hypothesentests in Python"
]
},
{
"cell_type": "markdown",
"id": "a7359c64-3bea-4b39-a06a-9eb99d86ac36",
"metadata": {},
"source": [
"Wir haben gerade einen **$t$-Test des Regressionskoeffizienten** in Python manuell berechnet. Das ist in Ordnung, aber wir können dasselbe in Python mit nur ein paar Zeilen Code tun!\n",
"\n",
"Daher müssen wir die Funktion `linregress()` auf unsere Antwortvariable `weight` und unsere Vorhersagevariable `height` anwenden."
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "e125ae05-2e0f-4e1d-a8df-390e8538f478",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"p-value 8.048424329264974e-07\n"
]
}
],
"source": [
"gradient, intercept, r_value, p_value, stderr = linregress(\n",
" data[\"height\"], data[\"weight\"]\n",
")\n",
"print(\"p-value\", p_value)"
]
},
{
"cell_type": "markdown",
"id": "2892abc2-759b-4227-844a-e0e3dafbfc10",
"metadata": {},
"source": [
"Für den Vergleich mit den manuell berechneten Werten extrahieren wir den Achsenabschnitt $\\beta_0$ und die Steigung $\\beta_1$"
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "b8b5c8a7-06fe-4887-b70a-da03dc2df4ca",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Achsenabschnitt: -39.44320641282566\n",
"Steigung: 0.6507615230460922\n"
]
}
],
"source": [
"print(f\"Achsenabschnitt: {intercept}\")\n",
"print(f\"Steigung: {gradient}\")"
]
},
{
"cell_type": "markdown",
"id": "b99799c6-8f1d-466c-8788-596f97f989c5",
"metadata": {},
"source": [
"Vergleichen Sie die Ausgabe mit unseren Ergebnissen von oben. Sie passen perfekt!"
]
},
{
"cell_type": "markdown",
"id": "e699a0a2-d5a1-4d96-874e-22d5d4732589",
"metadata": {},
"source": [
"## Inferenzstatistik - Der lineare Korrelationskoeffizienten"
]
},
{
"cell_type": "code",
"execution_count": 24,
"id": "d54b5bd4-d146-4dce-b73d-3e3ebce8353e",
"metadata": {},
"outputs": [],
"source": [
"import matplotlib.pyplot as plt\n",
"import numpy as np\n",
"import pandas as pd\n",
"from random import sample\n",
"from scipy.stats import t, pearsonr"
]
},
{
"cell_type": "markdown",
"id": "9aa2f88c-860d-4ab4-9dda-40730f6f4808",
"metadata": {},
"source": [
"Um zu prüfen, ob zwei Variablen linear korreliert sind, d. h. ob eine lineare Beziehung zwischen den beiden Variablen besteht, können wir den so genannten **$t$-Test zur Prüfung des Korrelationskoeffizienten** anwenden. Der **lineare Korrelationskoeffizient der Grundgesamtheit**, $\\rho$, misst die lineare Korrelation zweier Variablen auf die gleiche Weise wie der **lineare Korrelationskoeffizient der Stichprobe**, $r$, die lineare Korrelation zweier Variablen einer Stichprobe von Paaren misst. Sowohl $\\rho$ als auch $r$ beschreiben die Stärke der linearen Beziehung zwischen zwei Variablen; $r$ ist jedoch eine Schätzung von $\\rho$ der aus Stichprobendaten gewonnen wird.\n",
"\n",
"Der lineare Korrelationskoeffizient von zwei Variablen liegt zwischen $-1$ und $1$. Bei $\\rho=0$ sind die Variablen linear unkorreliert, es besteht also keine lineare Beziehung zwischen den Variablen. Bei $\\rho \\ne 0$ sind die Variablen linear korreliert. Wenn $\\rho \\gt 0$, sind die Variablen positiv linear korreliert, und wenn $\\rho \\lt 0$ sind die Variablen negativ linear korreliert.\n",
"\n",
"Eine häufig verwendete Statistik zur Berechnung der linearen Beziehung zwischen quantitativen Variablen ist der Pearson-Produkt-Moment-Korrelationskoeffizient. Er ist gegeben durch"
]
},
{
"cell_type": "markdown",
"id": "079d940e-0987-463a-a3a6-259836f35b6b",
"metadata": {},
"source": [
"$$r = \\frac{\\sum_{i=1}^n(x_i- \\bar x)(y_i - \\bar y)}{\\sqrt{\\sum_{i=1}^n(x_i- \\bar x)^2}\\sqrt{\\sum_{i=1}^n(y_i- \\bar y)^2}}=\\frac{s_{xy}}{s_x s_y}\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "8d0d9c21-b9c1-44c9-a35d-8dd372468f6f",
"metadata": {},
"source": [
"wobei $s_{xy}$ die Kovarianz von $x$ und $y$ ist und $s_x$ und $s_y$ die Standardabweichungen von $x$ bzw. $y$ sind.\n",
"\n",
"Da der lineare Korrelationskoeffizient der Stichprobe, $r$ eine Schätzung des linearen Korrelationskoeffizienten der Grundgesamtheit, $\\rho$, ist, können wir $r$ für einen Hypothesentest für $\\rho$ verwenden. Die Teststatistik für einen Korrelationstest hat eine $t$-Verteilung mit $n-2$ Freiheitsgraden und kann wie folgt geschrieben werden"
]
},
{
"cell_type": "markdown",
"id": "95936e5a-6a6e-405d-8bb7-59e4cc2721f5",
"metadata": {},
"source": [
"$$t= \\frac{r}{\\sqrt{\\frac{1-r^2}{n-2}}}\\text{.}$$"
]
},
{
"cell_type": "markdown",
"id": "a877e630-93fa-490b-a8c8-1e7be6c10293",
"metadata": {},
"source": [
"### Der $t$-test zur Prüfung des Korrelationskoeffizienten: Ein Beispiel"
]
},
{
"cell_type": "markdown",
"id": "400a8db8-be8f-4660-a73a-eb3b6555efde",
"metadata": {},
"source": [
"Um den $t$-Test für den Korrelationskoeffizienten zu üben, laden wir den `students` Datensatz. Sie können die Datei `students.csv` hier herunterladen. Importieren Sie den Datensatz und geben Sie ihm einen passenden Namen."
]
},
{
"cell_type": "code",
"execution_count": 25,
"id": "19b8aad5-4186-491f-b3c3-885408546c32",
"metadata": {},
"outputs": [],
"source": [
"# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen\n",
"students = pd.read_csv(\"../../data/students.csv\", index_col=0)"
]
},
{
"cell_type": "markdown",
"id": "cdc9c56d-789e-4a6e-9a35-a4006ea256d3",
"metadata": {},
"source": [
"Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud_id, name, gender, age, height, weight, religion, nc_score, semester, major, minor, score1, score2, online_tutorial, graduated, salary.*"
]
},
{
"cell_type": "markdown",
"id": "e62c3aad-c898-417e-82b4-cba98103f184",
"metadata": {},
"source": [
"Um den $t$-Test für die Korrelation zu veranschaulichen, untersuchen wir die Beziehung zwischen den Variablen `score1` und `score2`, die das Ergebnis von zwei obligatorischen statistischen Prüfungen darstellen. **Die Frage ist, ob es eine lineare Beziehung zwischen den Noten von zwei aufeinanderfolgenden statistischen Prüfungen gibt?**"
]
},
{
"cell_type": "markdown",
"id": "a3b6f8b3-4891-40ef-9e81-805b111cd47f",
"metadata": {},
"source": [
"### Vorbereitung der Daten"
]
},
{
"cell_type": "markdown",
"id": "e25f18fa-b41b-438a-af59-aff1042d5851",
"metadata": {},
"source": [
"Wir beginnen mit der Datenvorbereitung.\n",
"\n",
"- Wir unterteilen den Datensatz anhand der Variablen `score1` und `score2`. Durch Anwendung der Funktion `dropna()` lassen wir alle `nan`-Werte im Datensatz aus.\n",
"- Dann ziehen wir aus jeder Teilmenge 50 Studierende und extrahieren die Variablen von Interesse."
]
},
{
"cell_type": "code",
"execution_count": 26,
"id": "bad3c8bf-243e-4aac-a5aa-65835415c491",
"metadata": {},
"outputs": [],
"source": [
"n = 50\n",
"data = students.dropna()[[\"score1\", \"score2\"]].sample(n, random_state=1)\n",
"\n",
"score1 = data[\"score1\"]\n",
"score2 = data[\"score2\"]"
]
},
{
"cell_type": "markdown",
"id": "ca8f3f40-9531-4849-93aa-790c6ff7b0f6",
"metadata": {},
"source": [
"Zum Zweck der visuellen Kontrolle stellen wir die Stichprobe in Form eines Streudiagramms dar."
]
},
{
"cell_type": "code",
"execution_count": 27,
"id": "79b710da-6d14-4e15-b5e1-5038d2b85bfb",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Text(0, 0.5, 'score2')"
]
},
"execution_count": 27,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Erzeuge Streudiagramm\n",
"fig, ax = plt.subplots()\n",
"ax.scatter(x=score1, y=score2)\n",
"ax.set_xlabel(\"score1\")\n",
"ax.set_ylabel(\"score2\")"
]
},
{
"cell_type": "markdown",
"id": "d79090e2-8c03-4f91-8dd0-1c708ab2368c",
"metadata": {},
"source": [
"Die visuelle Inspektion zeigt, dass eine positive lineare Beziehung zwischen den Variablen `score1` und `score2` besteht."
]
},
{
"cell_type": "markdown",
"id": "010d1223-4406-446a-be13-87b2923f9782",
"metadata": {},
"source": [
"### Überprüfung der Hypothesen"
]
},
{
"cell_type": "markdown",
"id": "46591620-868a-4413-91a5-20a4e8327698",
"metadata": {},
"source": [
"Zur Durchführung des $t$-Tests für die Korrelation folgen wir dem schrittweisen Durchführungsverfahren für Hypothesentests. Der $t$-Test für die Korrelation folgt demselben schrittweisen Verfahren wie in den vorangegangenen Abschnitten beschrieben. "
]
},
{
"cell_type": "markdown",
"id": "fc2d1464",
"metadata": {},
"source": [
"|||\n",
"|---|---|\n",
"|Schritt 1| Geben Sie die Nullhypothese $H_0$ und alternative Hypothese $H_A$ an|\n",
"|Schritt 2|Legen Sie das Signifikanzniveau,$\\alpha$ fest|\n",
"|Schritt 3|Berechnen Sie den Wert der Teststatistik|\n",
"|Schritt 4|Bestimmen Sie den p-Wert|\n",
"|Schritt 5| Wenn $p \\le \\alpha$, $H_0$ ablehnen; ansonsten $H_0$ nicht ablehnen|\n",
"|Schritt 6|Interpretieren Sie das Ergebnis des Hypothesentests|"
]
},
{
"cell_type": "markdown",
"id": "fbdd101d-8045-4e19-8033-4f4d69f14ddf",
"metadata": {},
"source": [
"**Schritt 1 : Geben Sie die Nullhypothese $H_0$ und alternative Hypothese $H_A$ an**"
]
},
{
"cell_type": "markdown",
"id": "a7abc1b2-7a30-4f60-9b08-1925909d51ab",
"metadata": {},
"source": [
"Die Nullhypothese besagt, dass es keinen linearen Zusammenhang zwischen den Noten von zwei aufeinanderfolgenden Statistikprüfungen gibt."
]
},
{
"cell_type": "markdown",
"id": "c4803419-8454-484a-ba83-db836f41f1d3",
"metadata": {
"tags": []
},
"source": [
"$$H_0: r = 0$$"
]
},
{
"cell_type": "markdown",
"id": "8c5d6c80-a2cf-429f-bdf6-3848fc971ed8",
"metadata": {},
"source": [
"Erinnern Sie sich daran, dass die Formulierung der Alternativhypothese vorgibt, ob wir einen zweiseitigen, einen links- oder einen rechtsseitigen Hypothesentest durchführen."
]
},
{
"cell_type": "markdown",
"id": "da28da06-9620-43ec-8918-d200ff59daa0",
"metadata": {},
"source": [
"**Alternative Hypothese**"
]
},
{
"cell_type": "markdown",
"id": "7512112a-af4d-4553-a619-68cfcffc76f5",
"metadata": {},
"source": [
"$$H_A: r \\ne 0$$"
]
},
{
"cell_type": "markdown",
"id": "89dd1cbf-4123-46b4-9337-5c7980b4feea",
"metadata": {},
"source": [
"Diese Formulierung führt zu einem zweiseitigen Hypothesentest."
]
},
{
"cell_type": "markdown",
"id": "70be5651-7be6-4d9b-b4c3-87e8c690315e",
"metadata": {},
"source": [
"**Schritt 2: Legen Sie das Signifikanzniveau,$\\alpha$ fest**"
]
},
{
"cell_type": "markdown",
"id": "eb63d541-1bfd-4f6d-9e40-3093ac20cf1a",
"metadata": {},
"source": [
"$$\\alpha = 0,01$$"
]
},
{
"cell_type": "code",
"execution_count": 28,
"id": "3690ac32-4efb-4677-8930-ff3f8b030487",
"metadata": {},
"outputs": [],
"source": [
"alpha = 0.01"
]
},
{
"cell_type": "markdown",
"id": "e02c02a6-3800-4ad3-8bc4-15f249e0ef08",
"metadata": {},
"source": [
"**Schritt 3 und 4: Berechnen Sie den Wert der Teststatistik und den $p$-Wert**"
]
},
{
"cell_type": "markdown",
"id": "acb4e1c4-47d6-45da-bce3-51bb2a392fde",
"metadata": {},
"source": [
"Zur Veranschaulichung berechnen wir die Teststatistik manuell in Python. Erinnern Sie sich an die obige Gleichungsform:"
]
},
{
"cell_type": "markdown",
"id": "a1bace8f-fbee-462e-a263-cb2af5280fc5",
"metadata": {},
"source": [
"$$t= \\frac{r}{\\sqrt{\\frac{1-r^2}{n-2}}}$$"
]
},
{
"cell_type": "code",
"execution_count": 29,
"id": "91ea7b6c-a5fb-43b4-89d6-b2286c9d9dc3",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"14.846357121994247"
]
},
"execution_count": 29,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"n = len(score1)\n",
"\n",
"# Berechne Teststatistik\n",
"# Berechne PearsonKorrelationskoefficient r\n",
"r = np.corrcoef(score1, score2)[0][1]\n",
"\n",
"# Teststatistik\n",
"tw = r / np.sqrt((1 - r**2) / (n - 2))\n",
"tw"
]
},
{
"cell_type": "markdown",
"id": "0e3ff0f9-0c24-4962-8c5f-69d606591ab1",
"metadata": {},
"source": [
"Der numerische Wert der Teststatistik ist $14,846357$.\n",
"\n",
"Um den $p$-Wert zu berechnen, wenden wir die Funktion `t.cdf()` an. Erinnern Sie sich daran, wie man die Freiheitsgrade berechnet:"
]
},
{
"cell_type": "markdown",
"id": "152c3f51-46de-4645-9c76-e553d796f164",
"metadata": {},
"source": [
"$$df = n - 2= 48$$"
]
},
{
"cell_type": "code",
"execution_count": 30,
"id": "5df09f65-d56a-4a91-94e5-c9c172190e4f",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.4401962006630608e-19"
]
},
"execution_count": 30,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne den p-Wert\n",
"df = len(score1) - 2\n",
"\n",
"# zweiseitiger Test\n",
"p_upper = t.sf(abs(tw), df=df)\n",
"p_lower = t.cdf(-abs(tw), df=df)\n",
"p = p_upper + p_lower\n",
"p"
]
},
{
"cell_type": "markdown",
"id": "b167bed5-7df3-411b-be6c-5b57a54b6dce",
"metadata": {
"tags": []
},
"source": [
"**Schritt 5: Wenn $p \\le \\alpha , H_0$ ablehnen; ansonsten $H_0$ nicht ablehnen**"
]
},
{
"cell_type": "code",
"execution_count": 31,
"id": "6f1fcdb6-7639-4efb-9d18-2a3d6f5ed4d9",
"metadata": {
"tags": []
},
"outputs": [
{
"data": {
"text/plain": [
"True"
]
},
"execution_count": 31,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"p <= alpha"
]
},
{
"cell_type": "markdown",
"id": "1da10e36-207e-4f88-bea3-39558726523a",
"metadata": {},
"source": [
"Der $p$-Wert ist kleiner als das angegebene Signifikanzniveau von $0,01$; wir verwerfen $H_0$. Die Testergebnisse sind statistisch signifikant auf dem $1 \\%$-Niveau und liefern einen sehr starken Beweis gegen die Nullhypothese."
]
},
{
"cell_type": "markdown",
"id": "16b7e3a5-d850-4056-8315-91ae32ae1884",
"metadata": {},
"source": [
"**Schritt 6: Interpretieren Sie das Ergebnis des Hypothesentests**"
]
},
{
"cell_type": "markdown",
"id": "e9a99426-38cc-42e3-919e-ddfb26df2198",
"metadata": {},
"source": [
"$p=1,4401962 \\cdot 10^{-19}$. Bei einem Signifikanzniveau von $1 \\%$ lassen die Daten den Schluss zu, dass die Prüfungsnoten der Studenten linear korreliert sind."
]
},
{
"cell_type": "markdown",
"id": "b2bc7171-9c01-468a-9729-5af59cfa382a",
"metadata": {},
"source": [
"### Hypothesentests in Python"
]
},
{
"cell_type": "markdown",
"id": "0eabdd61-3420-44db-b203-001af5da609e",
"metadata": {},
"source": [
"Wir haben soeben einen $t$-test zur Prüfung des Korrelationskoeffizienten in Python manuell durchgeführt. Wir können dasselbe in Python mit nur einer Zeile Code tun!\n",
"\n",
"Dazu wenden wir die Funktion `pearsonr()` an. Für die Funktion verwenden wir die zwei Vektoren, `score1` und `score2`, als Dateneingabe."
]
},
{
"cell_type": "code",
"execution_count": 32,
"id": "fcfde383-2048-41c9-8352-ac53ed1c524d",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Korrelationskoeffizient: 0.9061854032279849\n",
"p - Wert: 1.4401962006631032e-19\n"
]
}
],
"source": [
"r, p_value = pearsonr(score1, score2)\n",
"print(f\"Korrelationskoeffizient: {r}\")\n",
"print(f\"p - Wert: {p_value}\")"
]
},
{
"cell_type": "markdown",
"id": "6edaf417-f5ab-43d9-87cf-6b3053b9756c",
"metadata": {},
"source": [
"Perfekt! Vergleichen Sie die Ausgabe der Funktion `pearsonr()` mit unserem Ergebnis von oben. Darüber hinaus gibt die Funktion den Pearson-Korrelationskoeffizienten für die Beispieldaten aus. Aus der Ausgabe der Funktion `pearsonr()` können wir schließen, dass die Daten bei einem Signifikanzniveau von $1 \\%$ sehr starke Hinweise darauf liefern, dass die Prüfungsnoten der Studenten linear korreliert sind."
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.10.2"
},
"vscode": {
"interpreter": {
"hash": "31f2aee4e71d21fbe5cf8b01ff0e069b9275f58929596ceb00d14d90e3e16cd6"
}
}
},
"nbformat": 4,
"nbformat_minor": 5
}