{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"id": "ad975392-2693-4676-b4d3-cb49edeca672",
"metadata": {
"tags": [
"remove-cell"
]
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"---------------------------------\n",
"Working on the host: Joachims-MacBook-Pro.local\n",
"\n",
"---------------------------------\n",
"Python version: 3.10.2 | packaged by conda-forge | (main, Feb 1 2022, 19:30:18) [Clang 11.1.0 ]\n",
"\n",
"---------------------------------\n",
"Python interpreter: /opt/miniconda3/envs/srh/bin/python\n"
]
}
],
"source": [
"%matplotlib inline\n",
"# Load the \"autoreload\" extension\n",
"%load_ext autoreload\n",
"# always reload modules\n",
"%autoreload 2\n",
"# black formatter for jupyter notebooks\n",
"#%load_ext nb_black\n",
"# black formatter for jupyter lab\n",
"%load_ext lab_black\n",
"\n",
"%run ../../src/notebook_env.py"
]
},
{
"cell_type": "markdown",
"id": "d2166258-3023-40a3-ac98-b21ca026f455",
"metadata": {},
"source": [
"# Inferenzstatistik und Konfidenzintervalle"
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "277c5774-1be0-461c-a8e7-efb5d0704b70",
"metadata": {},
"outputs": [],
"source": [
"import matplotlib.pyplot as plt\n",
"import numpy as np\n",
"import pandas as pd\n",
"from scipy.stats import norm, t"
]
},
{
"cell_type": "markdown",
"id": "eec03964-73e1-4761-a55b-9b4b9e4e9e58",
"metadata": {},
"source": [
"Die Inferenzstatistik besteht aus Methoden, die Stichprobenergebnisse verwenden, um Entscheidungen oder Vorhersagen über eine Grundgesamtheit zu treffen ({cite:p}`fahrmeirstatistik` s.12, {cite:p}`Bourier2013` s.237). Dieser Bereich der angewandten Statistik ist in allen Situationen von grundlegender Bedeutung, in denen das Wissen über die Grundgesamtheit begrenzt ist oder sogar gänzlich fehlt, was bei den meisten Anwendungen im wirklichen Leben der Fall ist. Außerdem ist es in vielen Fällen einfach zu teuer, sehr zeitaufwändig oder praktisch unmöglich, die Daten aller Mitglieder einer Grundgesamtheit zu erfassen. Daher wird eine Stichprobe aus der Grundgesamtheit gezogen und eine geeignete Stichprobenstatistik berechnet. Auf der Grundlage des Wertes der Stichprobenstatistik wird dann dem entsprechenden (unbekannten) Grundgesamtheitsparameter ein Wert zugewiesen.\n",
"\n",
"Dieses Verfahren, bei dem Grundgesamtheitsparameter auf der Grundlage von Stichproben ein numerischer Wert zugewiesen wird, wird als Schätzung bezeichnet.Der numerische Wert wird als **Schätzung** des Grundgesamtheitsparameters bezeichnet. Die zur Schätzung eines Populationsparameters verwendete Stichprobenstatistik wird als **Schätzer** bezeichnet ({cite:p}`fahrmeirstatistik` s.339)."
]
},
{
"cell_type": "markdown",
"id": "8b0bafd9-0157-4a6f-85fd-e48422c7429c",
"metadata": {},
"source": [
"## Die Punkteschätzung"
]
},
{
"cell_type": "markdown",
"id": "bd36fb48-71f4-4c35-a56a-14a408297f8c",
"metadata": {},
"source": [
"Bei einer Stichprobe ergibt der Wert der berechneten Stichprobenstatistik eine **Punktschätzung** ({cite:p}`fahrmeirstatistik` s.338) des entsprechenden Populationsparameters. Beispielsweise ist der Stichprobenmittelwert ($\\bar{x}$) eine Punktschätzung des entsprechenden Populationsmittelwerts $\\mu$, oder die Stichprobenstandardabweichung $s$ ist eine Punktschätzung für die Standardabweichung der Grundgesamtheit $\\sigma$. Es ist jedoch zu beachten, dass jede zufällig ausgewählte Stichprobe aus einer Population voraussichtlich einen anderen Wert der Stichprobenstatistik ergibt. Mit anderen Worten, der Stichprobenmittelwert $\\bar{x}$ und die Stichprobenstandardabweichung $s$ variieren von Stichprobe zu Stichprobe, während der Grundgesamtheitsmittelwert $\\mu$ und die Grundgesamtheitsstandardabweichung $\\sigma$ fest sind. Folglich weicht der Punktschätzer fast immer vom wahren Wert der Grundgesamtheit ab. Daher sollte jeder Punktschätzung eine Information beigefügt werden, die die Genauigkeit dieser Schätzung angibt."
]
},
{
"cell_type": "markdown",
"id": "d639824e-cdd8-4c4e-92cf-93669a3baee9",
"metadata": {},
"source": [
"## Die Intervall-Schätzung"
]
},
{
"cell_type": "markdown",
"id": "1f2bbc2f-ba83-405a-a067-f724e2ff66b4",
"metadata": {},
"source": [
"Anstatt einem Grundgesamtheitsparameter einen einzelnen Wert zuzuordnen, gibt eine **Intervallschätzung** eine probabilistische Aussage, die das gegebene Intervall mit der Wahrscheinlichkeit in Beziehung setzt, dass dieses Intervall tatsächlich den wahren (unbekannten) Grundgesamtheitsparameter enthält.\n",
"\n",
"Das **Konfidenzniveau** wird a priori gewählt und hängt somit von den Präferenzen des Nutzers ab. Es wird bezeichnet durch"
]
},
{
"cell_type": "markdown",
"id": "2399b7a1-acd5-4333-bcc9-0dbba571a891",
"metadata": {},
"source": [
"$$ 100(1-\\alpha)\\% $$"
]
},
{
"cell_type": "markdown",
"id": "b6421d74-7eab-4437-b04c-4ca8c5e56163",
"metadata": {},
"source": [
"Obwohl jeder beliebige Wert für das Konfidenzniveau gewählt werden kann, sind die gebräuchlichsten Werte $90 \\%, 95 \\%$ und $99 \\%$. Wird das Konfidenzniveau als Wahrscheinlichkeit ausgedrückt, wird es als **Konfidenzkoeffizient** bezeichnet und mit $(1-\\alpha)$. Die gebräuchlichsten Vertrauenskoeffizienten sind $0,90$, $0,95$ bzw. $0,99$.\n",
"\n",
"Ein $100(1-α) \\%$-iges Konfidenzintervall ist eine Intervallschätzung um einen Populationsparameter $\\theta$ (hier ist der griechische Buchstabe $\\theta$ ein Platzhalter für einen beliebigen Populationsparameter von Interesse, wie z. B. den Mittelwert $\\mu$ oder die Standardabweichung $\\sigma$), von dem bei wiederholten Stichproben der Größe $N$ erwartet wird, dass er den wahren Wert von $\\theta$ in $100(1-α) \\%$ der Fälle einschließt ({cite:p}`fahrmeirstatistik` s.358).\n",
"\n",
"Die tatsächliche Zahl, die zur Punktschätzung addiert oder von ihr subtrahiert wird, wird als Fehlermarge bezeichnet."
]
},
{
"cell_type": "markdown",
"id": "5b1bf749-d0e0-4b74-8c3f-7b34405fa1e8",
"metadata": {},
"source": [
"$$CI: \\text{Punktschätzung} \\pm \\text{Fehlermarge}$$"
]
},
{
"cell_type": "markdown",
"id": "ccd582fc-cbc3-486a-b490-de170c3f4c80",
"metadata": {},
"source": [
"Die Fehlermarge besteht aus zwei Elementen. Zum einen aus dem so genannten **kritischen Wert** und zum anderen aus einem Maß für die Variabilität der Stichprobenverteilung. Der kritische Wert ist ein numerischer Wert, der dem a priori festgelegten Vertrauensniveau entspricht. Er wird manchmal als $z^*$ oder $z^*_{\\alpha/2}$ bezeichnet. Das Maß für die Variabilität ist der Standardfehler, der als $\\frac{\\sigma}{\\sqrt{n}}$ bezeichnet wird.\n",
"\n",
"Die Fehlermarge ($FM$) wird also ausgedrückt als"
]
},
{
"cell_type": "markdown",
"id": "9d0dd367-a856-413a-8a3a-44a023861d01",
"metadata": {},
"source": [
"$$FM = z^*_{\\alpha/2} \\times \\frac{\\sigma}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "ebd12da9-e3d7-4e41-93a0-68612c5b3355",
"metadata": {},
"source": [
"Schauen wir uns zum besseren Verständnis eine Abbildung an."
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "53e24483-9a37-402d-a42c-5513d44930b2",
"metadata": {
"tags": [
"hide-input"
]
},
"outputs": [
{
"data": {
"text/plain": [
"[]"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"import numpy as np\n",
"from scipy.stats import norm\n",
"import matplotlib.pyplot as plt\n",
"\n",
"fig, ax = plt.subplots(figsize=(16, 8))\n",
"x = np.linspace(-4, 4, 1000)\n",
"\n",
"mu = 0\n",
"sigma = 1\n",
"ax.plot(x, norm.pdf(x), color=\"C0\", linewidth=4)\n",
"\n",
"\n",
"z = [-1.64, 0, 1.64]\n",
"for _x in z:\n",
" if _x != 0:\n",
" ax.vlines(_x, ymin=-0, ymax=norm.pdf(_x, mu, sigma) * 3, linestyle=\"dashed\")\n",
" else:\n",
" ax.vlines(_x, ymin=-0, ymax=norm.pdf(_x, mu, sigma) * 0.1, linestyle=\"dashed\")\n",
"\n",
"ticks = [-3, -2, -1, 0, 1, 2, 3]\n",
"ax.set_xticks(ticks)\n",
"\n",
"ax.set_xticklabels(\n",
" [\n",
" f\"{x}\" + r\"$\\times \\frac{\\sigma}{\\sqrt{n}}$\" if x != 0 else r\"$\\bar{x}$\"\n",
" for x in ticks\n",
" ]\n",
")\n",
"ax.fill_between(x, norm.pdf(x), where=x <= z[0], color=\"r\", alpha=0.5)\n",
"ax.fill_between(x, norm.pdf(x), where=x >= z[2], color=\"r\", alpha=0.5)\n",
"\n",
"# ax.set_ylabel(r\"$f(x)$\")\n",
"# ax.set_xlabel(r\"z-score\")\n",
"# ax.annotate(\n",
"# r\"$\\phi(z)$\",\n",
"# xy=(-0.5, 0.15),\n",
"# xytext=(-2, 0.3),\n",
"# # textcoords=\"data\",\n",
"# arrowprops=dict(headwidth=15, headlength=30, width=4, color=\"k\"),\n",
"# size=28,\n",
"# )\n",
"ax.text(s=r\"$1- \\alpha$\", x=0, y=0.15, size=28, horizontalalignment=\"center\")\n",
"\n",
"ax.text(\n",
" s=r\"$\\bar{x} - z_{\\alpha/2} \\times \\frac{\\sigma}{\\sqrt{n}}$\",\n",
" x=-1.64,\n",
" y=0.33,\n",
" size=22,\n",
" horizontalalignment=\"center\",\n",
")\n",
"\n",
"ax.text(\n",
" s=r\"$\\bar{x} + z_{\\alpha/2} \\times \\frac{\\sigma}{\\sqrt{n}}$\",\n",
" x=1.64,\n",
" y=0.33,\n",
" size=22,\n",
" horizontalalignment=\"center\",\n",
")\n",
"\n",
"ax.annotate(\n",
" r\"$\\frac{\\alpha}{2}$\",\n",
" xy=(2, 0.025),\n",
" xytext=(2.5, 0.1),\n",
" # textcoords=\"data\",\n",
" arrowprops=dict(headwidth=15, headlength=30, width=4, color=\"k\"),\n",
" size=28,\n",
")\n",
"ax.annotate(\n",
" r\"$\\frac{\\alpha}{2}$\",\n",
" xy=(-2, 0.025),\n",
" xytext=(-2.7, 0.1),\n",
" # textcoords=\"data\",\n",
" arrowprops=dict(headwidth=15, headlength=30, width=4, color=\"k\"),\n",
" size=28,\n",
")\n",
"\n",
"ax.arrow(0, 0.015, -1.34, 0, head_width=0.01, head_length=0.3, color=\"k\")\n",
"ax.arrow(0, 0.015, 1.34, 0, head_width=0.01, head_length=0.3, color=\"k\")\n",
"\n",
"ax.text(s=\"Fehlermarge\", x=0.7, y=0.025, size=18, horizontalalignment=\"center\")\n",
"ax.text(s=\"Fehlermarge\", x=-0.7, y=0.025, size=18, horizontalalignment=\"center\")\n",
"ax.set_yticks([])"
]
},
{
"cell_type": "markdown",
"id": "86a5a96e-e3f5-4c1c-8011-7a7a6866f202",
"metadata": {},
"source": [
"Dementsprechend lautet die vollständige Gleichung für das Konfidenzintervall wie folgt"
]
},
{
"cell_type": "markdown",
"id": "7f224257-eef9-4d4b-8edc-5544596fa5e9",
"metadata": {},
"source": [
"$$CI: \\text{Punktschätzung} \\pm z^*_{\\alpha/2} \\times \\frac{\\sigma}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "0830a91f-708b-41a1-9c67-74c6ec38afff",
"metadata": {},
"source": [
"Um den entsprechenden Wert für $z^*_{\\alpha/2}$ zu erhalten, kann man ihn in einer Tabelle nachschlagen oder die Funktion `norm.ppf()` in Python verwenden. Lassen Sie uns zur Übung einige Konfidenzintervalle konstruieren."
]
},
{
"cell_type": "markdown",
"id": "5a3f9b57-e93f-4a9a-b12e-02871116e4d5",
"metadata": {},
"source": [
"**Konfidenzniveau von** $90 \\% (\\alpha=0,1)$"
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "b0d47a21-0664-4e38-9936-b66b17141f81",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"-1.6448536269514729"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"norm.ppf(0.05)"
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "98ed14d3-2da6-45ef-b46d-a9b0234323aa",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.6448536269514722"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"norm.ppf(0.95)"
]
},
{
"cell_type": "markdown",
"id": "3fad781f-c56a-457c-bda4-2de083f6223c",
"metadata": {},
"source": [
"Die untere und obere Grenze des Intervalls, das einen Bereich von $90 \\%$ um den Mittelwert abdeckt, wird durch die $z$-Werte $-1,64$ bzw. $1,64$ angegeben."
]
},
{
"cell_type": "markdown",
"id": "b05f890e-5ecc-47c9-bdf3-6cffd8984a78",
"metadata": {},
"source": [
"Bei einem Konfidenzniveau von $90 \\% (\\alpha=0,1)$ ergibt sich aus der obigen Gleichung"
]
},
{
"cell_type": "markdown",
"id": "2db8ecd5-db4c-4149-a3d8-a40446acbf76",
"metadata": {},
"source": [
"$$CI_{90\\%}: \\text{Punktschätzung} \\pm 1,64 \\times \\frac{\\sigma}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "77b77050-b2b3-405f-af7e-ec40cccbddd5",
"metadata": {},
"source": [
"**Konfidenzniveau von** $95 \\% (\\alpha=0,05)$"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "74a07d2e-f519-43c5-89e9-dba234b2baf5",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"-1.9599639845400545"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"norm.ppf(0.025)"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "54d7b0ff-88db-444a-99b0-7207c4919372",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.959963984540054"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"norm.ppf(0.975)"
]
},
{
"cell_type": "markdown",
"id": "cfa272cc-d68d-44fa-bc74-448ad20e3503",
"metadata": {},
"source": [
"Die untere und obere Grenze des Intervalls, das einen Bereich von $90 \\%$ um den Mittelwert abdeckt, wird durch die $z$-Werte $-1,96$ bzw. $1,96$ angegeben."
]
},
{
"cell_type": "markdown",
"id": "e4171826-727c-401b-8a4d-646feb1b6bf4",
"metadata": {},
"source": [
"Bei einem Konfidenzniveau von $95 \\% (\\alpha=0,05)$ ergibt sich aus der obigen Gleichung"
]
},
{
"cell_type": "markdown",
"id": "9fb84ae6-889b-4c02-a790-bfcbe0991cc1",
"metadata": {},
"source": [
"$$CI_{95\\%}: \\text{Punktschätzung} \\pm 1,96 \\times \\frac{\\sigma}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "46222319-cc68-4cf6-876f-e69fdd9da508",
"metadata": {},
"source": [
"**Konfidenzniveau von** $99 \\% (\\alpha=0,01)$"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "fa44a00d-a32c-4abf-828a-08e56c40c14a",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"-2.575829303548901"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"norm.ppf(0.005)"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "55080b82-eac1-471d-8984-8bada2f9820f",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"2.5758293035489004"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"norm.ppf(0.995)"
]
},
{
"cell_type": "markdown",
"id": "ac6c5421-87a8-40c9-97cb-3f0ad0205d46",
"metadata": {},
"source": [
"Die untere und obere Grenze des Intervalls, das einen Bereich von $90 \\%$ um den Mittelwert abdeckt, wird durch die $z$-Werte $-2,58$ bzw. $2,58$ angegeben."
]
},
{
"cell_type": "markdown",
"id": "9217ce50-1e82-4fd7-a4ab-334a9528580b",
"metadata": {},
"source": [
"Bei einem Konfidenzniveau von $99 \\% (\\alpha=0,01)$ ergibt sich aus der obigen Gleichung"
]
},
{
"cell_type": "markdown",
"id": "d232e2fe-42d8-4e06-b0b4-e9959dca70ea",
"metadata": {},
"source": [
"$$CI_{99\\%}: \\text{Punktschätzung} \\pm 2,58 \\times \\frac{\\sigma}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "4a2c8765-4458-4755-b02a-b0d7e4d14059",
"metadata": {},
"source": [
"## Die Breite eines Konfidenzintervalls und der Kompromiss zwischen Präzision und Genauigkeit"
]
},
{
"cell_type": "markdown",
"id": "cb7991e8-918e-4184-8a28-e3293d408027",
"metadata": {},
"source": [
"### Ein Gedankenexperiment"
]
},
{
"cell_type": "markdown",
"id": "90052254-144c-41a0-a0f6-d089e51bf37a",
"metadata": {},
"source": [
"Betrachten wir die durchschnittliche Tagestemperatur in Berlin an einem schönen Sommertag im Juni. Nehmen wir an, wir messen eine mittlere Tagestemperatur von $19^\\circ\\text{C}$. Nun geht es darum, die mittlere Temperatur von morgen zu schätzen.\n",
"\n",
"Es gibt natürlich mehrere mehr oder weniger ausgeklügelte Ansätze, um diese Aufgabe zu lösen. Man kann in den Datenarchiven nachsehen und die Schätzung auf deskriptive Statistiken stützen, oder man kann sogar einen sehr ausgeklügelten Modellierungsansatz mit einer Unmenge von Modellparametern anwenden, oder man kann einfach eine Schätzung auf der Grundlage des gesunden Menschenverstands vornehmen. Unabhängig davon, welcher Ansatz gewählt wird, wird das Ergebnis immer eine Schätzung sein, die mit einem gewissen Grad an Unsicherheit verbunden ist.\n",
"\n",
"Um dieser Unsicherheit Rechnung zu tragen, präsentieren wir keine Punktschätzung der morgigen Temperatur, sondern eine Intervallschätzung. Um eine hohe **Genauigkeit** unserer Schätzung zu erreichen, also, dass wir sehr sicher sein wollen, dass unser Intervall den tatsächlichen Wert enthält, wenden wir eine sehr große Fehlermarge an. Wir sagen zum Beispiel, dass die morgige Temperatur $19 \\pm 20^\\circ\\text{C}$ beträgt. Nach gesundem Menschenverstand würden wir wahrscheinlich zustimmen, dass die durchschnittliche Tagestemperatur an einem Sommertag im Juni in Berlin zwischen $-1$ und $39^\\circ\\text{C}$ liegt.\n",
"\n",
"Obwohl das Intervall sehr groß ist und vielleicht sogar alle mittleren Tagestemperaturen im Juni für Berlin in der Geschichte der Wetterbeobachtung enthält, besteht immer noch eine kleine Chance, dass wir uns irren. Stellen Sie sich ein natürliches oder vom Menschen verursachtes katastrophales Ereignis wie einen gewaltigen Vulkanausbruch, einen Asteroideneinschlag oder einen Atomkrieg vor; in diesen glücklicherweise sehr unwahrscheinlichen Fällen kann selbst eine so große Fehlermarge nicht garantieren, dass die morgige Durchschnittstemperatur innerhalb des angegebenen Intervalls liegt. Dennoch ist es wichtig zu beachten, dass wir, **um eine hohe Genauigkeit zu erreichen, das Konfidenzniveau und damit die Breite des Konfidenzintervalls erhöhen**.\n",
"\n",
"OK, wir sagen, dass die morgige Temperatur im Bereich von $19 \\pm 20^\\circ\\text{C}$ liegt. Aber ist eine solche Aussage, obwohl sie sehr genau ist, überhaupt von Wert? Hilft uns diese Schätzung bei der Entscheidung, welche Kleidung wir morgen tragen sollen? Nein, ganz und gar nicht!\n",
"\n",
"In vielen Anwendungen sind wir also nicht nur an der **Genauigkeit** interessiert, sondern auch an der **Präzision** einer Schätzung. Eine Schätzung der morgigen Temperatur mit höherer Genauigkeit wäre $19 \\pm 2^\\circ\\text{C}$. Eine solche Vorhersage hilft uns zwar bei der Entscheidung, welche Kleidung wir anziehen sollen, aber die Wahrscheinlichkeit, dass wir uns irren, ist viel größer. Daher ist es wichtig, sich zu vergegenwärtigen, dass eine **Erhöhung der Genauigkeit die Breite des Konfidenzintervalls verkleinert und somit das Konfidenzniveau verringert**. Diese Abwägung zwischen Genauigkeit und Präzision bei der Auswahl eines geeigneten Konfidenzniveaus ist in der Praxis sehr wichtig."
]
},
{
"cell_type": "markdown",
"id": "68763363-d95a-4ba5-9b0d-043e6a392ab5",
"metadata": {},
"source": [
"## Schätzung des Mittelwerts einer Grundgesamtheit - Die $z$-Verteilung"
]
},
{
"cell_type": "markdown",
"id": "8481fdc4-9176-435a-a8ee-1c17c4ce4329",
"metadata": {},
"source": [
"Die Schätzung des Mittelwerts einer Grundgesamtheit anhand einer Stichprobe ist eine sehr häufige Aufgabe. Wenn die Standardabweichung der Grundgesamtheit ($\\sigma$) bekannt ist, basiert die Konstruktion eines Konfidenzintervalls für den Grundgesamtheitsmittelwert ($\\mu$) auf der normalverteilten Stichprobenverteilung der Stichprobenmittelwerte (gewährleistet durch den zentralen Grenzwertsatz). Wenn die Grundgesamtheit, aus der die Stichprobe gezogen wird, nicht normalverteilt ist, sollte der Stichprobenumfang $n \\gt 30$ sein.\n",
"\n",
"Das $100(1-α) \\%$ige Konfidenzintervall für $\\mu$ ist gegeben durch"
]
},
{
"cell_type": "markdown",
"id": "a4e7d686-38fc-45b3-9321-cefeb73a8d1a",
"metadata": {},
"source": [
"$$CI: \\bar x \\pm z^*_{\\alpha/2}\\times \\sigma_{\\bar x}$$"
]
},
{
"cell_type": "markdown",
"id": "94d5f641-3274-4837-9710-469778d00928",
"metadata": {},
"source": [
"$$\\text{wobei}\\qquad \\sigma_{\\bar x} = \\frac{\\sigma}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "2180a86b-7bc9-469e-9528-aa9aa1fc99f7",
"metadata": {},
"source": [
"Der Wert von $z^*_{\\alpha/2}$ entspricht dem kritischen Wert und wird aus der Standardnormaltabelle entnommen oder mit der Funktion `norm.ppf()` in Python berechnet. Der kritische Wert ist eine Größe, die mit dem gewünschten Konfidenzniveau zusammenhängt. Typische Werte für $z^*_{\\alpha/2}$ sind $1,64$, $1,96$ und $2,58$, was einem Konfidenzniveau von $90 \\%, 95 \\%$ und $99 \\%$ entspricht. Dieser kritische Wert wird mit dem Standardfehler ($\\sigma_{\\bar{x}}$)multipliziert, um die Fehlermarge zu vergrößern oder zu verkleinern.\n",
"\n",
"Der Standardfehler ($\\sigma_{\\bar{x}}$) ergibt sich aus dem Verhältnis zwischen der Standardabweichung der Grundgesamtheit ($\\sigma$) und der Quadratwurzel des Stichprobenumfangs $n$. Er beschreibt das Ausmaß, in dem die berechnete Stichprobenstatistik von einer Stichprobe zur anderen abweichen kann. Das Produkt aus dem kritischen Wert und dem Standardfehler wird als Fehlermarge bezeichnet. Es ist die Größe, die vom Wert von $\\bar{x}$ subtrahiert und zu diesem addiert wird, um das Konfidenzintervall für $\\mu$ zu erhalten."
]
},
{
"cell_type": "markdown",
"id": "60df26d5-0138-490b-ae48-27f197f8b76b",
"metadata": {
"tags": []
},
"source": [
"## Intervallschätzung für einen Mittelwert - Die $z$-Verteilung"
]
},
{
"cell_type": "markdown",
"id": "55b24f4d-fbf0-421f-995f-341ef13cc986",
"metadata": {},
"source": [
"Zum besseren Verständnis der Schätzung eines Populationsmittelwerts und der Konstruktion eines Konfidenzintervalls diskutieren wir das Verfahren anhand eines Datensatzes. Dazu laden wir den `students` Datensatz. Sie können die Datei `students.csv` hier herunterladen. Zunächst importieren wir den Datensatz und geben ihm einen passenden Namen."
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "844f6521-7323-4d77-aa71-e2cc2d375134",
"metadata": {},
"outputs": [],
"source": [
"# Lese Datei students.csv als Dataframe ein\n",
"students = pd.read_csv(\"../../data/students.csv\")"
]
},
{
"cell_type": "markdown",
"id": "7497254a-913b-4741-bb7f-a8be008ae53f",
"metadata": {},
"source": [
"Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud_id, name, gender, age, height, weight, religion, nc_score, semester, major, minor, score1, score2, online_tutorial, graduated, salary*.\n",
"\n",
"In diesem Abschnitt konzentrieren wir uns auf die Größe von Studentinnen. Wir gehen davon aus, dass die im Datensatz angegebenen Größenmessungen eine sehr gute Annäherung an die interessierende Population darstellen, nämlich die Größe der Studentinnen in cm. Die Variable `height` der Studentinnen ist annähernd normalverteilt - was durch die symmetrische Glockenform des Populationshistogramms bestätigt wird."
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "729ef013-61c0-4ecd-af0e-4dbd8969c50a",
"metadata": {},
"outputs": [],
"source": [
"female = students.loc[students[\"gender\"] == \"Female\", \"height\"]"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "481c6e1f-d293-4422-a95e-ba712066e746",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Text(0.5, 0, 'Größe in cm')"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Bestimme Anzahl Bins\n",
"bins = max(female) - min(female)\n",
"\n",
"# Plotte die Werte als Histogramm\n",
"fig, ax = plt.subplots()\n",
"\n",
"ax.hist(female, bins, edgecolor=\"k\")\n",
"\n",
"# Erzeuge Labels\n",
"ax.set_ylabel(\"Häufigkeit\")\n",
"ax.set_xlabel(\"Größe in cm\")"
]
},
{
"cell_type": "markdown",
"id": "45845c85-eb60-4a32-9dec-a8c142cd6b53",
"metadata": {},
"source": [
"Auf der Grundlage der gegebenen Daten berechnen wir zunächst den Populationsmittelwert $\\mu$ und die Populationsstandardabweichung $\\sigma$."
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "0bdf992b-b88f-42b5-b3d8-e402fee9893d",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"163.65328467153284"
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"f_mean = np.mean(female)\n",
"f_mean"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "fbc7fefa-8d04-4d7a-9128-d0be4d3e9c90",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"7.918762263149209"
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"f_std = np.std(female)\n",
"f_std"
]
},
{
"cell_type": "markdown",
"id": "fd92106e-a8db-4cf7-8058-6510791b5e60",
"metadata": {},
"source": [
"Anschließend konstruieren wir eine Wahrscheinlichkeitsverteilung, indem wir die Funktion `norm.pdf()` anwenden, die durch die zuvor berechneten Parameter $\\mu$ und $\\sigma$ definiert ist, und stellen sie über dem Histogramm dar."
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "57d73884-e060-4527-b00a-de0c055edd56",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Text(0.5, 0, 'Größe in cm')"
]
},
"execution_count": 15,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"x = np.linspace(125, 200, 500)\n",
"y = norm.pdf(x, f_mean, f_std)\n",
"\n",
"# Bestimme Anzahl Bins\n",
"bins = max(female) - min(female)\n",
"\n",
"# Plotte die Werte als Histogramm\n",
"fig, ax = plt.subplots()\n",
"ax.hist(female, bins=bins, edgecolor=\"k\", density=True)\n",
"ax.plot(x, y, linewidth=3)\n",
"# Erzeuge Labels\n",
"ax.set_ylabel(\"Häufigkeit\")\n",
"ax.set_xlabel(\"Größe in cm\")"
]
},
{
"cell_type": "markdown",
"id": "20de9151-a746-4a1c-b0e5-fa20553350f2",
"metadata": {},
"source": [
"Eine gute Übereinstimmung!\n",
"\n",
"Nun nehmen wir eine Zufallsstichprobe mit einem Stichprobenumfang von $n=10$\n",
"aus der Wahrscheinlichkeitsverteilung, indem wir die Funktion `norm.rvs()` anwenden und den Stichprobenmittelwert $\\bar{x}$ berechnen."
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "1bebb605-89cf-463b-840a-7c1207ad7906",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([176.51608944, 158.80893107, 159.47081813, 155.15670124,\n",
" 170.50624195, 145.42794689, 177.47003423, 157.62546819,\n",
" 166.17967943, 161.67857995])"
]
},
"execution_count": 16,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Grösse der Stichprobe\n",
"sample_size = 10\n",
"\n",
"# Wähle normalverteilte Zufallszahlen mit Mittelwert f_mean und Standardabweichung f_std aus\n",
"sample = norm.rvs(f_mean, f_std, sample_size, random_state=1)\n",
"sample"
]
},
{
"cell_type": "code",
"execution_count": 17,
"id": "2128831d-ee17-486b-a7d7-c734b7e11a18",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"162.88404905120882"
]
},
"execution_count": 17,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"sample_mean = np.mean(sample)\n",
"sample_mean"
]
},
{
"cell_type": "markdown",
"id": "4ebdced4-4a90-4d66-b7e2-ae6767f104c5",
"metadata": {},
"source": [
"Unsere Stichprobe ergibt einen Stichprobenmittelwert $\\bar{x}$ von etwa $162,884$. Dies ist unser Punktschätzer für den interessierenden Grundgesamtheitsparameter, der in diesem Fall die durchschnittliche Körpergröße der Studentinnen ($\\mu$).\n",
"\n",
"Wie genau ist unsere Punktschätzung? Wir fragen Python, ob unsere Schätzung mit dem wahren Grundgesamtheitsparameter übereinstimmt."
]
},
{
"cell_type": "code",
"execution_count": 18,
"id": "f4641a01-7d55-47c3-82e8-5f83ccb2bfd4",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"False"
]
},
"execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"sample_mean == f_mean"
]
},
{
"cell_type": "markdown",
"id": "fb62c63e-ef9a-42d5-ab5e-fc8ab715ac92",
"metadata": {},
"source": [
"OK, das haben wir erwartet!\n",
"\n",
"Berechnen wir nun einige Intervallschätzungen, indem wir die $90\\%-, 95\\%-$ und $99\\%-$ Konfidenzintervalle konstruieren. Erinnern Sie sich an die Gleichung für ein Konfidenzintervall."
]
},
{
"cell_type": "markdown",
"id": "9d31685d-5519-40ee-8397-dc2f18a21122",
"metadata": {},
"source": [
"$$CI: \\text{Punktschätzung} \\pm z^*_{\\alpha/2} \\times \\frac{\\sigma}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "96ca0cf4-a707-4dfe-84c7-72d38cf88dd4",
"metadata": {},
"source": [
"Der kritische Wert $z^*_{\\alpha/2}$ beträgt $1,64$, $1,96$ und $2,58$ für Konfidenzniveaus von $90\\%, 95\\%$ bzw. $99\\%$.\n",
"\n",
"Angewandt auf unsere Daten ergibt die Gleichung"
]
},
{
"cell_type": "markdown",
"id": "9da30c31-22d0-4b4e-99cd-b1f4dcf29bab",
"metadata": {},
"source": [
"$$CI_{90\\%}: 162,884 \\pm 1,64 \\times \\frac{7,92}{\\sqrt{10}} = 162,884 \\pm 4,12$$"
]
},
{
"cell_type": "markdown",
"id": "92dfc324-7bf7-4632-8ab4-4e1327fb81b9",
"metadata": {},
"source": [
"Wir können also mit $90\\%$iger Sicherheit sagen, dass die durchschnittliche Körpergröße der Studenten (der Grundgesamtheitsparameter $\\mu$) zwischen $158,764$ und $167,004$ cm liegt."
]
},
{
"cell_type": "markdown",
"id": "1aaecb0e-d1f6-4ea9-a4b9-9814c5ff00fd",
"metadata": {},
"source": [
"$$CI_{95\\%}: 162,884 \\pm 1,96 \\times \\frac{7,92}{\\sqrt{10}} = 162,884 \\pm 4,91$$"
]
},
{
"cell_type": "markdown",
"id": "91a007c2-1717-43e3-bf3a-55a8e6757caf",
"metadata": {},
"source": [
"Wir können also mit 95%iger Sicherheit sagen, dass die durchschnittliche Körpergröße der Studenten zwischen $157,974$ und $167,794$ cm liegt."
]
},
{
"cell_type": "markdown",
"id": "0ff4fa37-4c21-4e0d-af72-16693901b17b",
"metadata": {},
"source": [
"$$CI_{99\\%}: 162,884 \\pm 2,58 \\times \\frac{7,92}{\\sqrt{10}} = 162,884 \\pm 6,45$$"
]
},
{
"cell_type": "markdown",
"id": "6af11229-4b6a-480b-8815-4d0d6e046a8b",
"metadata": {},
"source": [
"Wir können also mit $99\\%$iger Sicherheit sagen, dass die durchschnittliche Körpergröße der Studenten zwischen $156,434$ und $169,334$ cm liegt."
]
},
{
"cell_type": "markdown",
"id": "4c5a7c10-c0b3-46f9-ae88-0cc3e68524cf",
"metadata": {},
"source": [
"Es liegt auf der Hand, **dass die Fehlerspanne größer wird, wenn man eine höhere Sicherheit haben will, dass der unbekannte Grundgesamtheitsparameter im Intervall enthalten ist**."
]
},
{
"cell_type": "markdown",
"id": "fde53c99-c708-4228-b7b5-f722c6ba6eb3",
"metadata": {},
"source": [
"Zur Überprüfung der Richtigkeit wollen wir untersuchen, ob wir mit unseren Intervallschätzungen tatsächlich den wahren Wert der Grundgesamtheit erfasst haben. Es ist wichtig, sich daran zu erinnern, dass das Konfidenzintervall unserem Stichprobenmittelwert keine Wahrscheinlichkeit zuweist, sondern besagt, dass das Konfidenzintervall bei wiederholten Zufallsstichproben den Mittelwert der Grundgesamtheit in $100(1-\\alpha)\\%$ der Fälle enthalten soll. Um diese Behauptung zu testen, schreiben wir selbst eine einfache Python-Funktion."
]
},
{
"cell_type": "code",
"execution_count": 19,
"id": "c03d4ae0-551d-4cc9-a3f4-730d78dcdbf7",
"metadata": {},
"outputs": [],
"source": [
"def CI_eval(pop_mean, sigma, n, estimate, alpha):\n",
" \"\"\"Funktion zur Evaluierung des Konfidenzintervalls\"\"\"\n",
" out = {f\"{int((1 - x) * 100)}%\": {} for x in alpha}\n",
"\n",
" for e, _alpha in enumerate(alpha):\n",
" key = f\"{int((1 - _alpha) * 100)}%\"\n",
" out[key][\"true value\"] = pop_mean\n",
" out[key][\"estimate\"] = estimate\n",
" upper = estimate + norm.ppf(1 - _alpha / 2) * sigma / np.sqrt(n)\n",
" out[key][\"upper\"] = upper\n",
" lower = estimate - norm.ppf(1 - _alpha / 2) * sigma / np.sqrt(n)\n",
" out[key][\"lower\"] = lower\n",
" out[key][\"test\"] = pop_mean >= lower and pop_mean <= upper\n",
"\n",
" return out"
]
},
{
"cell_type": "markdown",
"id": "425fb304-c232-4341-8789-2658011f63e2",
"metadata": {},
"source": [
"Wenden wir nun unsere selbst erstellte Funktion `CI_eval()` auf unsere Daten an. Wir setzen `pop_mean = f_mean`, `sigma = f_std`, `n = sample_size`, `estimate = sample_mean`, `alpha = [0.1, 0.05, 0.01]`, um zu evaluieren, ob die drei oben konstruierten Konfidenzintervalle ($90\\%, 95\\%$ und $99\\%$) den Grundgesamtheitsmittelwert enthalten. Schließlich wandeln wir den resultierenden Vektor in ein `dataframe` -Objekt um, um die Lesbarkeit zu verbessern."
]
},
{
"cell_type": "code",
"execution_count": 20,
"id": "0715204f-aa0f-4f22-ba2e-594e3f6814ac",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
90%
\n",
"
95%
\n",
"
99%
\n",
"
\n",
" \n",
" \n",
"
\n",
"
true value
\n",
"
163.653285
\n",
"
163.653285
\n",
"
163.653285
\n",
"
\n",
"
\n",
"
estimate
\n",
"
162.884049
\n",
"
162.884049
\n",
"
162.884049
\n",
"
\n",
"
\n",
"
upper
\n",
"
167.00298
\n",
"
167.792059
\n",
"
169.334267
\n",
"
\n",
"
\n",
"
lower
\n",
"
158.765118
\n",
"
157.97604
\n",
"
156.433831
\n",
"
\n",
"
\n",
"
test
\n",
"
True
\n",
"
True
\n",
"
True
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" 90% 95% 99%\n",
"true value 163.653285 163.653285 163.653285\n",
"estimate 162.884049 162.884049 162.884049\n",
"upper 167.00298 167.792059 169.334267\n",
"lower 158.765118 157.97604 156.433831\n",
"test True True True"
]
},
"execution_count": 20,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df = pd.DataFrame.from_dict(\n",
" CI_eval(\n",
" pop_mean=f_mean,\n",
" sigma=f_std,\n",
" n=sample_size,\n",
" estimate=sample_mean,\n",
" alpha=[0.1, 0.05, 0.01],\n",
" )\n",
")\n",
"df"
]
},
{
"cell_type": "markdown",
"id": "5c59cae3-df91-47f6-bc29-d245d2025c1c",
"metadata": {},
"source": [
"Ein interessantes Ergebnis. Der wahre Mittelwert der Grundgesamtheit (`f_mean` = $163,65$) wird von allen drei Konfidenzintervallen erfasst. Der Mittelwert unserer Zufallsstichprobe (`sample_mean` = $162,884$) war ein recht guter Schätzer."
]
},
{
"cell_type": "markdown",
"id": "177adfa1-baa4-4c55-9cd0-2746de34cc98",
"metadata": {
"tags": []
},
"source": [
"## Schätzung des Mittelwerts einer Grundgesamtheit - Die $t$-Verteilung"
]
},
{
"cell_type": "markdown",
"id": "993b7685-d6b1-4679-8e0e-9bb24a53ff52",
"metadata": {},
"source": [
"Bisher haben wir uns auf $\\sigma$, die Standardabweichung der Grundgesamtheit, gestützt, um auf den Mittelwert der Grundgesamtheit zu schließen. Der Populationsparameter $\\sigma$ wird zur Berechnung des Standardfehlers ($SF=\\frac{\\sigma}{\\sqrt{n}}$) verwendet, der ein Bestandteil der Fehlermarge ist. Was aber, wenn man die Standardabweichung der Grundgesamtheit nicht kennt, was in der Regel der Fall ist? Man kann die Standardabweichung der Stichprobe, die mit $s$ bezeichnet wird, als Schätzwert für die Standardabweichung der Grundgesamtheit verwenden."
]
},
{
"cell_type": "markdown",
"id": "e4daa8b9-0a91-4801-8423-7bd288bb0692",
"metadata": {},
"source": [
"$$\\text{wenn } \\ s \\approx \\sigma \\ \\text{ dann } \\ SF = \\frac{s}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "ad4a2805-2c58-40be-bacd-21b9bcdac906",
"metadata": {},
"source": [
"Es ist jedoch zu beachten, dass im Gegensatz zu $\\sigma$ die Standardabweichung der Stichprobe, $s$, von Stichprobe zu Stichprobe variiert und dass $s \\lt \\sigma$ ist. Man kann den Stichprobenumfang $n$ erhöhen, und damit wird $s$ zu einer besseren Schätzung für $\\sigma$. Solange wir jedoch $\\sigma$ nicht kennen, müssen wir bei der Durchführung des Inferenzverfahrens in jedem Fall zwei Größen schätzen: sowohl den Mittelwert $\\mu$ als auch die Standardabweichung $\\sigma$. Aus diesem Grund führt die Verwendung von $s$ als Schätzung für $\\sigma$ zu einer größeren Unsicherheit bei der Schätzung des Mittelwerts $\\mu$. Um dieser zusätzlichen Unsicherheit entgegenzuwirken, wenden wir die so genannte $t$-Verteilung oder **Studentsche-Verteilung** an, um die Fehlermarge ($FM$) zu berechnen."
]
},
{
"cell_type": "markdown",
"id": "da4b3412-156d-4b3e-814b-43057224ade0",
"metadata": {},
"source": [
"Das Verfahren zur Ermittlung eines Konfidenzintervalls für einen Grundgesamtheitsmittelwert, wenn die Standardabweichung $\\sigma$ der Grundgesamtheit nicht bekannt ist, ist im Wesentlichen dasselbe wie bei bekannter Standardabweichung der Grundgesamtheit, mit der Ausnahme, dass jetzt die $t$-Verteilung und die Standardabweichung $s$ der Stichprobe anstelle der Standardnormalverteilung ($z$-Scores) bzw. der Standardabweichung $\\sigma$ der Grundgesamtheit herangezogen werden.\n",
"\n",
"Erinnern Sie sich an die Konstruktion eines Konfidenzintervalls"
]
},
{
"cell_type": "markdown",
"id": "918982a4-cfcf-4ac0-8169-24d824ebbbf0",
"metadata": {},
"source": [
"$$CI: \\text{Punktschätzung} \\pm FM$$"
]
},
{
"cell_type": "markdown",
"id": "8783494c-62e8-40a4-814a-21268f858506",
"metadata": {},
"source": [
"Die Fehlermarge ($FM$) besteht aus dem kritischen Wert und einem Maß für die Variabilität der Stichprobenverteilung. Der kritische Wert ist $t^*_{df,\\,\\alpha/2}$ für das gegebene Konfidenzniveau und die Freiheitsgrade. Sein Wert ergibt sich aus einer $t$-Verteilungstabelle für $n-1$ Freiheitsgrade oder wird in Python mit der Funktion `t.cdf()` berechnet. Das Maß für die Variabilität der Stichprobenverteilung ist der Standardfehler ($SF$). Da die Standardabweichung $\\sigma$ der Grundgesamtheit nicht bekannt ist, wird sie durch die Standardabweichung $s$ der Stichprobe ersetzt, was zu $SF=\\frac{s}{\\sqrt{n}}$ führt.\n",
"\n",
"Folglich ist das $100(1-α) \\%$ige\n",
"Konfidenzintervall für $\\mu$ gleich"
]
},
{
"cell_type": "markdown",
"id": "ec73bc32-255d-476d-a365-1993315abf9d",
"metadata": {},
"source": [
"$$CI: \\bar x \\pm t^*_{df,\\, \\alpha/2} \\frac{s}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "5bee3026-731b-44a6-b07a-19ec494a4ff7",
"metadata": {},
"source": [
"Lassen Sie uns zur Übung einige Konfidenzintervalle konstruieren. Für den Zweck dieser Übung wird $df$ auf $12$ gesetzt."
]
},
{
"cell_type": "markdown",
"id": "eef090b5-a408-4862-bf03-2fc242decce9",
"metadata": {},
"source": [
"**Konfidenzniveau von** $90 \\%$ ($\\alpha=0,1$)"
]
},
{
"cell_type": "code",
"execution_count": 21,
"id": "0d629e91-8a40-4b7b-8266-f710110fcd5f",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"-1.7822875556491593"
]
},
"execution_count": 21,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"t.ppf(0.05, df=12)"
]
},
{
"cell_type": "code",
"execution_count": 22,
"id": "e673cc41-d0fb-414a-b6cc-084a10d8e218",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.782287555649159"
]
},
"execution_count": 22,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"t.ppf(0.95, df=12)"
]
},
{
"cell_type": "markdown",
"id": "d448f462-0412-4d26-aa74-8e2e8e129581",
"metadata": {},
"source": [
"Die untere und obere Grenze des Intervalls (bei $df=12$), das einen Bereich von $90 \\%$ um den Mittelwert abdeckt, entspricht den $t$-Werten $-1,78$ und $1,78$"
]
},
{
"cell_type": "markdown",
"id": "55e13094-ef3f-47cd-9e6e-7d84524cb2da",
"metadata": {},
"source": [
"Bei einem Konfidenzniveau von $90 \\% (\\alpha=0,1)$ ergibt sich aus der obigen Gleichung"
]
},
{
"cell_type": "markdown",
"id": "4718258a-14c5-4ce6-8cd4-4a841be640c6",
"metadata": {},
"source": [
"$$CI_{90\\%}: \\text{Punktschätzung} \\pm 1,78 \\times \\frac{s}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "8e25edbd-5bec-4620-9a23-378a0f4a5ca1",
"metadata": {},
"source": [
"**Konfidenzniveau von** $95 \\%$ ($\\alpha=0,05$)"
]
},
{
"cell_type": "code",
"execution_count": 23,
"id": "6265c024-11ff-4660-b374-235e15d72dcd",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"-2.178812829663418"
]
},
"execution_count": 23,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"t.ppf(0.025, df=12)"
]
},
{
"cell_type": "code",
"execution_count": 24,
"id": "406713e5-e2f6-4caf-b9c3-2fc395253cd1",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"2.1788128296634177"
]
},
"execution_count": 24,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"t.ppf(0.975, df=12)"
]
},
{
"cell_type": "markdown",
"id": "29b95034-6eba-4f0b-a55e-83ba3bc66377",
"metadata": {},
"source": [
"Die untere und obere Grenze des Intervalls (bei $df=12$), das einen Bereich von $95 \\%$ um den Mittelwert abdeckt, entspricht den $t$-Werten $-2,18$ und $2,18$"
]
},
{
"cell_type": "markdown",
"id": "5c370b8c-6b09-4d77-a0b9-e4839d86fa4a",
"metadata": {},
"source": [
"Bei einem Konfidenzniveau von $95 \\% (\\alpha=0,05)$ ergibt sich aus der obigen Gleichung"
]
},
{
"cell_type": "markdown",
"id": "fee7684c-c8d6-4e17-b318-7e3a6bffc1d5",
"metadata": {},
"source": [
"$$CI_{95\\%}: \\text{Punktschätzung} \\pm 2,18 \\times \\frac{s}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "e6f882c9-c89b-4f9f-a1a5-8ee5b6cfa33d",
"metadata": {},
"source": [
"**Konfidenzniveau von** $99 \\%$ ($\\alpha=0,01$)"
]
},
{
"cell_type": "code",
"execution_count": 25,
"id": "c6621f1b-c66c-46a8-9d67-6d74e7d2ff39",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"-3.054539588336871"
]
},
"execution_count": 25,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"t.ppf(0.005, df=12)"
]
},
{
"cell_type": "code",
"execution_count": 26,
"id": "d77f00f1-f027-4fb3-b6ba-dd999eb51179",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"3.0545395883368704"
]
},
"execution_count": 26,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"t.ppf(0.995, df=12)"
]
},
{
"cell_type": "markdown",
"id": "013c7137-e405-44ef-86eb-be52d1af3f49",
"metadata": {},
"source": [
"Die untere und obere Grenze des Intervalls (bei $df=12$), das einen Bereich von $99 \\%$ um den Mittelwert abdeckt, entspricht den $t$-Werten $-3,05$ und $3,05$"
]
},
{
"cell_type": "markdown",
"id": "e4e4939f-2341-4280-a4cc-4bdc907eb43a",
"metadata": {},
"source": [
"Bei einem Konfidenzniveau von $99 \\% (\\alpha=0,01)$ ergibt sich aus der obigen Gleichung"
]
},
{
"cell_type": "markdown",
"id": "174cab14-7398-4bc3-ab08-bfaa157c123c",
"metadata": {},
"source": [
"$$CI_{99\\%}: \\text{Punktschätzung} \\pm 3,05 \\times \\frac{s}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "5c05cebe-b82b-4748-a6ad-aa8286c0a513",
"metadata": {},
"source": [
"## Intervallschätzung für einen Mittelwert - Die $t$-Verteilung"
]
},
{
"cell_type": "markdown",
"id": "67dd9728-bfbd-4487-b411-6b996e20f44b",
"metadata": {},
"source": [
"Wir üben das Verfahren \"The One-Mean t-Interval Procedure\", um Konfidenzintervalle mit einem Datensatz zu konstruieren. Dazu laden wir den `students` Datensatz. Sie können die Datei `students.csv` hier herunterladen. Zunächst importieren wir den Datensatz und geben ihm einen passenden Namen."
]
},
{
"cell_type": "code",
"execution_count": 27,
"id": "4ef57452-e2ae-49f4-8833-9189a572700f",
"metadata": {},
"outputs": [],
"source": [
"# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen\n",
"students = pd.read_csv(\"../../data/students.csv\", index_col=0)"
]
},
{
"cell_type": "markdown",
"id": "d02f3ede-4d17-4eef-b3d4-ce15ff46f190",
"metadata": {},
"source": [
"Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud_id, name, gender, age, height, weight, religion, nc_score, semester, major, minor, score1, score2, online_tutorial, graduated, salary*.\n",
"\n",
"In diesem Abschnitt konzentrieren wir uns wieder auf die Körpergröße von Studentinnen. Gehen wir davon aus, dass die im Datensatz angegebenen Größenmessungen eine sehr gute Annäherung an die interessierende Grundgesamtheit darstellen, so dass wir eine Stichprobe aus der Wahrscheinlichkeitsdichtefunktion auf der Grundlage des Mittelwerts und der Standardabweichung des Datensatzes ziehen."
]
},
{
"cell_type": "code",
"execution_count": 28,
"id": "4598c860-5e8a-432c-b3bb-f3fb3b716d03",
"metadata": {},
"outputs": [],
"source": [
"female = students.loc[students[\"gender\"] == \"Female\", \"height\"]\n",
"f_mean = np.mean(female)\n",
"f_std = np.std(female)"
]
},
{
"cell_type": "code",
"execution_count": 29,
"id": "1d5720f3-8d8c-4023-b1e5-cfc0b0b13ea3",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"163.65328467153284"
]
},
"execution_count": 29,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"f_mean"
]
},
{
"cell_type": "code",
"execution_count": 30,
"id": "cee5c670-b4b1-47ba-bd13-c9c071efda61",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"7.918762263149209"
]
},
"execution_count": 30,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"f_std"
]
},
{
"cell_type": "markdown",
"id": "588d4755-3050-45ef-a7bf-3e278f10852d",
"metadata": {},
"source": [
"Wir ziehen eine Zufallsstichprobe mit einem Stichprobenumfang von $n=6$ aus der Wahrscheinlichkeitsverteilung, die durch den Mittelwert und die Standardabweichung der Höhenvariablen definiert ist, und berechnen den Stichprobenmittelwert $\\bar{x}$und die Stichprobenstandardabweichung $s$."
]
},
{
"cell_type": "code",
"execution_count": 31,
"id": "1dcd7aff-c030-4db6-a729-66c42e90437a",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"161.44236164394297"
]
},
"execution_count": 31,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"sample_size = 6\n",
"sample = t.rvs(sample_size - 1, f_mean, f_std, sample_size, random_state=1)\n",
"sample_mean = np.mean(sample)\n",
"sample_mean"
]
},
{
"cell_type": "code",
"execution_count": 32,
"id": "0c45797a-d3a4-4210-918e-b7786f1b514f",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"10.09685230523463"
]
},
"execution_count": 32,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"s = np.std(sample)\n",
"s"
]
},
{
"cell_type": "markdown",
"id": "7a4c0bad-0e6a-4c34-9301-7572dc534dac",
"metadata": {},
"source": [
"Unsere Zufallsstichprobe ergibt einen Stichprobenmittelwert $\\bar{x}$ von etwa $161,44$ und eine Stichprobenstandardabweichung $s$ von ungefähr $10,1$. Dies sind unsere Punktschätzungen für die interessierende Grundgesamtheit, die in diesem Fall die Körpergröße der Studentinnen in unserem Datensatz ist.\n",
"\n",
"Wie genau ist unsere Punktschätzung? Wir fragen Python, ob unsere Schätzungen mit dem wahren Grundgesamtheitsparameter übereinstimmen."
]
},
{
"cell_type": "code",
"execution_count": 33,
"id": "a226f7af-5c02-47fe-8c10-6b9806c7a2c1",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"False"
]
},
"execution_count": 33,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"sample_mean == f_mean"
]
},
{
"cell_type": "code",
"execution_count": 34,
"id": "8220156c-ba7d-406c-b17b-6974c40e95d6",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"False"
]
},
"execution_count": 34,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"s == f_std"
]
},
{
"cell_type": "code",
"execution_count": 35,
"id": "70b4bdd6-aea9-45d2-82a8-63240062cbaf",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"False"
]
},
"execution_count": 35,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"s < f_std"
]
},
{
"cell_type": "markdown",
"id": "ac7d1fd2-c47b-4699-a395-6a3b4ca4b8b2",
"metadata": {},
"source": [
"OK, das haben wir erwartet!\n",
"\n",
"Berechnen wir nun die Intervallschätzungen, indem wir die $90\\%-$, $95\\%-$ und $99\\%-$Konfidenzintervalle konstruieren. Erinnern Sie sich an die Gleichung für ein Konfidenzintervall und wie man den Freiheitsgrad berechnet."
]
},
{
"cell_type": "markdown",
"id": "944c17d7-3b76-445b-afd1-94e291d1cb02",
"metadata": {},
"source": [
"$$CI: \\text{Punktschätzung} \\pm t^*_{df,\\,\\alpha/2} \\times \\frac{s}{\\sqrt{n}}$$"
]
},
{
"cell_type": "markdown",
"id": "f45ce35c-05df-4acf-855b-f8abcca340eb",
"metadata": {},
"source": [
"$$df = n-1$$"
]
},
{
"cell_type": "markdown",
"id": "3093caf1-b520-4b47-9207-f8125042b086",
"metadata": {},
"source": [
"Der kritische Wert $t^*_{5,\\,\\alpha/2}$ beträgt $2,02$, $2,57$ und $4,03$ für Konfidenzniveaus von $90\\%$, $95\\%$ bzw. $99\\%$.\n",
"\n",
"Angewandt auf unsere Höhendaten ergibt die Gleichung"
]
},
{
"cell_type": "markdown",
"id": "de02603a-d6e3-45b9-92c7-0a026a2dce7c",
"metadata": {},
"source": [
"$$CI_{90\\%}: 161,44 \\pm 2,02 \\times \\frac{10,1}{\\sqrt{6}} = 161,44 \\pm 8,32$$"
]
},
{
"cell_type": "markdown",
"id": "38e3b668-2da8-4af1-be9b-00b7a22137f8",
"metadata": {},
"source": [
"Wir können also mit $90 \\%$iger Sicherheit sagen, dass die durchschnittliche Körpergröße der Studentinnen (der Populationsparameter $\\mu$) zwischen $153,12$ und $169,76$ cm liegt."
]
},
{
"cell_type": "markdown",
"id": "b5aabdac-f932-475b-8ff6-5ab836c94d8a",
"metadata": {},
"source": [
"$$CI_{95\\%}: 161,44 \\pm 2,57 \\times \\frac{10,1}{\\sqrt{6}} = 161,44 \\pm 10,6$$"
]
},
{
"cell_type": "markdown",
"id": "0589d049-b84e-4fb1-aca7-b294bbcf281c",
"metadata": {},
"source": [
"Wir können also mit $95\\%$iger Sicherheit sagen, dass die durchschnittliche Körpergröße der Schülerinnen zwischen $150,84$ und $172,04$ cm liegt."
]
},
{
"cell_type": "markdown",
"id": "e14426d5-963a-4eb2-b7cb-7d80d9e66774",
"metadata": {},
"source": [
"$$CI_{99\\%}: 161,44 \\pm 4,03 \\times \\frac{10,1}{\\sqrt{6}} = 161,44 \\pm 16,6$$"
]
},
{
"cell_type": "markdown",
"id": "2ecb2dae-b9f4-4b8d-8f5a-c8eefd51fda8",
"metadata": {},
"source": [
"Wir können also mit $99\\%$iger Sicherheit sagen, dass die durchschnittliche Körpergröße der Studentinnen zwischen $144,84$ und $178,04$ cm liegt.\n",
"\n",
"Es liegt auf der Hand, **dass die Fehlerspanne größer ist, wenn wir eine höhere Sicherheit haben wollen, dass der unbekannte Grundgesamtheitsparameter im Intervall enthalten ist**."
]
},
{
"cell_type": "markdown",
"id": "7421bfd0-f58b-4ea4-b957-e9b35fe109b6",
"metadata": {},
"source": [
"Zur Überprüfung der Korrektheit untersuchen wir, ob wir mit unserer Intervallschätzung tatsächlich den wahren Grundgesamtheitswert erfasst haben. Es ist wichtig, sich daran zu erinnern, dass das Konfidenzintervall unserem Stichprobenmittelwert keine Wahrscheinlichkeit zuweist, sondern besagt, dass das Konfidenzintervall bei wiederholten Zufallsstichproben den Mittelwert der Grundgesamtheit in $100(1-\\alpha)\\%$ der Fälle einschließen sollte. Um diese Behauptung zu testen, ändern wir die von uns im vorherigen Abschnitt geschriebene Python-Funktion leicht ab."
]
},
{
"cell_type": "code",
"execution_count": 36,
"id": "dcbbbe46-5f9c-4198-948b-e38752f38893",
"metadata": {},
"outputs": [],
"source": [
"def CI_eval_t(pop_mean, sigma, n, estimate, alpha):\n",
" \"\"\"Funktion zur Evaluierung des Konfidenzintervalls\"\"\"\n",
" out = {f\"{int((1 - x) * 100)}%\": {} for x in alpha}\n",
"\n",
" for e, _alpha in enumerate(alpha):\n",
" key = f\"{int((1 - _alpha) * 100)}%\"\n",
" out[key][\"true value\"] = pop_mean\n",
" out[key][\"estimate\"] = estimate\n",
" upper = estimate + t.ppf(1 - _alpha / 2, df=n - 1) * sigma / np.sqrt(n)\n",
" out[key][\"upper\"] = upper\n",
" lower = estimate - t.ppf(1 - _alpha / 2, df=n - 1) * sigma / np.sqrt(n)\n",
" out[key][\"lower\"] = lower\n",
" out[key][\"test\"] = pop_mean >= lower and pop_mean <= upper\n",
"\n",
" return out"
]
},
{
"cell_type": "markdown",
"id": "fd8240a7-85a4-4022-a17c-fadd0d2fcb0d",
"metadata": {},
"source": [
"Wenden wir nun unsere selbst erstellte Funktion `CI.eval.t()` auf unsere Daten an. Wir setzen `pop.mean = f_mean`, `sigma = s`, `n = sample.size`, `estimate = x.bar`, `alpha = [0.1,0.05,0.01]`, um zu evaluieren, ob die drei oben konstruierten Konfidenzintervalle ($90\\%$, $95\\%$ und $99\\%$) den Populationsmittelwert enthalten. Schließlich wandeln wir den resultierenden Vektor in ein `dataframe` -Objekt um, um die Lesbarkeit zu verbessern."
]
},
{
"cell_type": "code",
"execution_count": 37,
"id": "54bda2a3-2157-42bd-bb5b-9de6390faca6",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"