{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"id": "9bad8ced-d99e-4417-bb97-386bf8f09435",
"metadata": {
"tags": [
"remove-cell"
]
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"---------------------------------\n",
"Working on the host: Joachims-MacBook-Pro.local\n",
"\n",
"---------------------------------\n",
"Python version: 3.10.2 | packaged by conda-forge | (main, Feb 1 2022, 19:30:18) [Clang 11.1.0 ]\n",
"\n",
"---------------------------------\n",
"Python interpreter: /opt/miniconda3/envs/srh/bin/python\n"
]
}
],
"source": [
"%matplotlib inline\n",
"# Load the \"autoreload\" extension\n",
"%load_ext autoreload\n",
"# always reload modules\n",
"%autoreload 2\n",
"# black formatter for jupyter notebooks\n",
"#%load_ext nb_black\n",
"# black formatter for jupyter lab\n",
"%load_ext lab_black\n",
"\n",
"%run ../../src/notebook_env.py"
]
},
{
"cell_type": "markdown",
"id": "82bad07a-11ad-441f-99fa-377005e6a312",
"metadata": {},
"source": [
"# Varianzanalyse - ANOVA"
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "64930077-9a2b-49e4-bfbf-8357338fb3b9",
"metadata": {},
"outputs": [],
"source": [
"import matplotlib.pyplot as plt\n",
"import numpy as np\n",
"import pandas as pd\n",
"from scipy.stats import f, f_oneway, ttest_ind\n",
"import statsmodels.api as smi\n",
"from statsmodels.stats.multicomp import pairwise_tukeyhsd"
]
},
{
"cell_type": "markdown",
"id": "cfd2f4eb-de37-4173-9bbf-0785916d352f",
"metadata": {},
"source": [
"In diesem Abschnitt wird eine Methode namens Varianzanalyse (englisch analysis of variance, kurz ANOVA) erörtert, mit der mehrere Mittelwerte einer Grundgesamtheit verglichen werden können.\n",
"\n",
"Genauer gesagt geht es um die sogenannte einfaktorielle Varianzanalyse ({cite:t}`fahrmeirstatistik` s.478). Bei dieser Art der ANOVA werden die Mittelwerte einer Variablen verglichen, die sich aus der Klassifizierung durch *eine* andere Variable, dem sogenannten **Faktor**, ergeben. Um das Konzept zu veranschaulichen, wollen wir ein einfaches Beispiel entwerfen. Angenommen, wir vergleichen die mittleren Jahresgehälter der in Deutschland lebenden Personen, gruppiert nach Bundesländern, dann erhalten wir $16$ Mittelwerte der Jahresgehälter, einen für jedes Bundesland. In diesem Beispiel ist die Bundeslandvariable also eine Klassifikationsvariable, der so genannte Faktor.\n",
"\n",
"Bitte beachten Sie, dass die einfaktorielle Varianzanalyse die Verallgemeinerung des $2$-Stichproben $t$-Tests auf mehr als zwei Grundgesamtheiten ist."
]
},
{
"cell_type": "markdown",
"id": "167f023d-d0dc-4117-9abc-f443c289782b",
"metadata": {},
"source": [
"## Einfaktorielle ANOVA"
]
},
{
"cell_type": "markdown",
"id": "4e637344-eb20-4d44-a920-ad47aade6f8c",
"metadata": {},
"source": [
"Die grundlegende Logik einer einfaktoriellen ANOVA besteht darin, aus jeder Gruppe unabhängige Zufallsstichproben zu ziehen, dann die Stichprobenmittelwerte für jede Gruppe zu berechnen und anschließend die Variation der Stichprobenmittelwerte zwischen den Gruppen mit der Variation innerhalb der Gruppen zu vergleichen. Schließlich wird auf der Grundlage einer Teststatistik entschieden, ob die Mittelwerte der Gruppen gleich sind oder nicht.\n",
"\n",
"Auf der Grundlage dieser Logik benötigen wir quantitative **Maße für die Variabilität**. Daher teilen wir die Gesamtvariabilität in zwei Segmente auf: Eines, das die **Variabilität zwischen den Gruppen** berücksichtigt, und das andere, das die **Variabilität innerhalb der Gruppen** berücksichtigt."
]
},
{
"cell_type": "markdown",
"id": "02f9a1a6-7976-4465-a2a4-838a6849ce31",
"metadata": {},
"source": [
"### Maße der Variabilität"
]
},
{
"cell_type": "markdown",
"id": "b5224692-d5c7-448e-830a-7016842582df",
"metadata": {},
"source": [
"Wir führen drei quantitative Maße für die Variation ein:\n",
"\n",
"- Summe der Gesamtquadrate (SST)\n",
"- Summe der Gruppenquadrate (SSG)\n",
"- Summe der Fehlerquadrate (SSE)"
]
},
{
"cell_type": "markdown",
"id": "bf44d7a8-e02d-441e-82da-ab24a278f4a7",
"metadata": {},
"source": [
"Die **Summe der Gesamtquadrate (SST)** ist ein Maß für die Gesamtvariabilität der Variablen. Sie ist gegeben durch"
]
},
{
"cell_type": "markdown",
"id": "a2fbff1f-d7c7-4633-a9a1-98ca9e17a48c",
"metadata": {},
"source": [
"$$SST = \\sum_{i=1}^n(x_i-\\bar x)^2\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "d9bcd349-e944-444b-ac4c-8cc2c574ec94",
"metadata": {},
"source": [
"wobei $x_i$ den Beobachtungen in den Stichproben entspricht und $\\bar x$ für den Gesamtmittelwert aller Stichproben steht.\n",
"\n",
"Die **Summe der Gruppenquadrate (SSG)** ist ein Maß für die Variabilität zwischen Gruppen und entspricht der quadrierten Abweichung der Gruppenmittelwerte vom Gesamtmittelwert, gewichtet mit dem Stichprobenumfang."
]
},
{
"cell_type": "markdown",
"id": "8a312c0a-7610-4370-9699-49f4c9a55389",
"metadata": {},
"source": [
"$$SSG = \\sum_{i=1}^n n_j(\\bar x_i-\\bar x)^2$$"
]
},
{
"cell_type": "markdown",
"id": "c9c18f0a-4643-4c8a-a293-823823965ff7",
"metadata": {},
"source": [
"Dabei steht $n_j$ für den Stichprobenumfang der Gruppe $j$, $\\bar{x}_i$ für den Mittelwert der Gruppe $j$ und $\\bar{x}$ für den Gesamtmittelwert der Stichprobe."
]
},
{
"cell_type": "markdown",
"id": "b7bd2ec7-d13c-4722-8f70-b7e495e50ada",
"metadata": {},
"source": [
"Die **Summe der Fehlerquadrate ($SSE$)** schließlich ist ein Maß für die Variabilität innerhalb der Gruppen. Sie steht im Zusammenhang mit der unerklärten Variabilität, d. h. der Variabilität, die nicht durch die Gruppenvariable erklärt werden kann. Die Summe der Fehlerquadrate ist gegeben durch"
]
},
{
"cell_type": "markdown",
"id": "0241ab4d-60a6-4e11-9830-697cb81c5163",
"metadata": {},
"source": [
"$$SSE = \\sum_{i=1}^n (n_j-1)s_j^2\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "388112ed-56ba-404b-9dd9-8c75f8498df5",
"metadata": {},
"source": [
"wobei $n_j$ den Stichprobenumfang für Gruppe $j$ und $s^2_{j}$ die Varianz von Gruppe $j$ bezeichnet. Alternativ kann man $SSE$ sowie die Differenz von $SST$ und $SSG$ berechnen"
]
},
{
"cell_type": "markdown",
"id": "58e6ef07-931b-48c0-a386-73f384308cd1",
"metadata": {},
"source": [
"$$SSE = SST-SSG\\text{.}$$"
]
},
{
"cell_type": "markdown",
"id": "34b9adeb-78a6-4166-ad29-56a24f26e22f",
"metadata": {},
"source": [
"### Maße der mittleren Variabilität"
]
},
{
"cell_type": "markdown",
"id": "8db5b37b-33a4-4bac-b2e4-eb6c9fffea8e",
"metadata": {},
"source": [
"Bisher haben wir Maße für die Gesamtvariabilität ($SST$), die Variabilität zwischen Gruppen ($SSG$) und die Variabilität innerhalb von Gruppen ($SSE$) berechnet. Um eine durchschnittliche Variabilität zu erhalten, skalieren wir im nächsten Schritt diese Variabilitätsmaße mit dem Stichprobenumfang (genauer gesagt mit den Freiheitsgraden, $df$).\n",
"\n",
"Die **Freiheitsgrade** werden für jede Unterteilung der Variabilität (Gesamtvariabilität, Variabilität zwischen Gruppen und Variabilität innerhalb von Gruppen) definiert.\n",
"\n",
"- Gesamtvariabilität"
]
},
{
"cell_type": "markdown",
"id": "15ff3495-8e46-4c2a-9a2a-942aef17d97a",
"metadata": {},
"source": [
"$$df_T = n-1\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "d4d7a2e9-5348-45c3-9e26-0e67e7d4d89a",
"metadata": {},
"source": [
"wobei $n$ den Gesamtumfang der Stichprobe bezeichnet. den Gesamtumfang der Stichprobe bezeichnet.\n",
"\n",
"- Variabilität zwischen den Gruppen"
]
},
{
"cell_type": "markdown",
"id": "d0b18266-f8d9-4527-8a03-0d9fc7c2bc85",
"metadata": {},
"source": [
"$$df_G=k-1\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "c9af7014-448e-4ff7-b4b8-83e5b8aaaff0",
"metadata": {},
"source": [
"wobei $k$ die Anzahl der Gruppen bezeichnet.\n",
"den Gesamtumfang der Stichprobe bezeichnet.\n",
"\n",
"- Variabilität innerhalb der Gruppe"
]
},
{
"cell_type": "markdown",
"id": "44351466-1ecb-4a6b-bf50-7f7adc17543e",
"metadata": {},
"source": [
"$$df_E = n-k\\text{.}$$"
]
},
{
"cell_type": "markdown",
"id": "712accff-a333-48e6-94e4-79747626a1d9",
"metadata": {},
"source": [
"Nun können wir die **mittleren Quadrate** für die Variabilität zwischen den Gruppen und die Variabilität innerhalb der Gruppen berechnen. Die durchschnittliche Variabilität zwischen und innerhalb der Gruppen wird als die Gesamtvariabilität, skaliert mit den zugehörigen Freiheitsgraden, berechnet.\n",
"\n",
"- Mittlere Variabilität zwischen den Gruppen"
]
},
{
"cell_type": "markdown",
"id": "d0cddd16-9323-49a0-aa5a-cd114c46bda7",
"metadata": {},
"source": [
"$$MSG = \\frac{SSG}{df_G}$$"
]
},
{
"cell_type": "markdown",
"id": "e7dee819-f45f-4024-b084-5c1aaae7aadb",
"metadata": {},
"source": [
"- Mittlere Variabilität innerhalb der Gruppe"
]
},
{
"cell_type": "markdown",
"id": "071aa68d-ed8d-4975-8681-e0c7ad75d711",
"metadata": {},
"source": [
"$$MSE = \\frac{SSE}{df_E}$$"
]
},
{
"cell_type": "markdown",
"id": "7e9d69cc-e48c-456a-9a71-f5dfb22872a5",
"metadata": {},
"source": [
"### Teststatistik und $p$-Wert"
]
},
{
"cell_type": "markdown",
"id": "c21dbcf8-1ac0-4031-bdd4-3c6961080097",
"metadata": {},
"source": [
"Schließlich vergleichen wir die mittlere Variation zwischen den Gruppen, $MSG$, mit der Variation innerhalb der Gruppe, $MSE$. Daher berechnen wir das Verhältnis zwischen der durchschnittlichen Variation zwischen den Gruppen ($MSG$) und der Variation innerhalb der Gruppen ($MSE$), das mit $F$ bezeichnet wird."
]
},
{
"cell_type": "markdown",
"id": "d632d30a-b0c0-4761-9a82-5aed6075143b",
"metadata": {},
"source": [
"$$F= \\frac{MSG}{MSE}$$"
]
},
{
"cell_type": "markdown",
"id": "3721fa25-b2e1-46d2-a7f8-962130960a41",
"metadata": {},
"source": [
"Die $F$-Statistik hat die $F$-Verteilung (benannt nach Sir Ronald A. Fisher) mit"
]
},
{
"cell_type": "markdown",
"id": "39867d8d-a2ae-4c39-a758-ff4d619f47d8",
"metadata": {},
"source": [
"$$df = (k-1, n-k)\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "19472d0c-108e-41fb-9d21-4f057ebb1e3a",
"metadata": {},
"source": [
"wobei $k$ für die Anzahl der Gruppen und $n$ für den Stichprobenumfang steht. Große Werte der $F$-Werte zeigen an, dass die Variation zwischen den Stichprobenmittelwerten der Gruppen im Verhältnis zur Variation innerhalb der Gruppe groß ist. Darüber hinaus können wir den $p$-Wert für jeden gegebenen $F$-Wert berechnen. Wenn der $p$-Wert klein ist, liefern die Daten überzeugende Beweise dafür, dass sich mindestens ein Paar von Gruppenmittelwerten voneinander unterscheidet. Ist der $p$-Wert groß, liefern die Daten keinen überzeugenden Beweis dafür, dass sich zumindest ein Paar von Gruppenmittelwerten voneinander unterscheidet, und die beobachteten Unterschiede in den Stichprobenmittelwerten sind somit auf Stichprobenvariabilität (oder Zufall) zurückzuführen."
]
},
{
"cell_type": "markdown",
"id": "ac22694d-4a7d-42b9-8a07-03033625cf97",
"metadata": {},
"source": [
"### Einfaktorielle ANOVA-Tabellen"
]
},
{
"cell_type": "markdown",
"id": "de80e04e-2745-4812-8051-5e4a1d9ea279",
"metadata": {},
"source": [
"Wie oben dargestellt, umfasst die einfache Varianzanalyse mehrere Analyseschritte. Dabei ist eine gängige Methode zur Darstellung einer einfachen ANOVA die so genannte **einfaktorielle ANOVA-Tabelle**. Der allgemeine Aufbau einer solchen Tabelle ist unten dargestellt."
]
},
{
"cell_type": "markdown",
"id": "d8eac7f2-1658-416a-84cc-f07732c6dc7e",
"metadata": {},
"source": [
"|Quelle|$df$|Summe der Quadrate (SS)| Mittlere Quadrate (MS)|$F$-Statistik|$p$-Wert|\n",
"|---|---|---|---|---|---|\n",
"|Gruppe/Klasse|$k-1$|$SSG$|$MSG = \\frac{SSG}{k-1}$ | $F=\\frac{MSG}{MSE}$ | $p$|\n",
"|Fehler/Residuen|$n-k$|$SSE$|$MSE=\\frac{SSE}{n-k}$||\n",
"|Insgesamt|$n-1$|$SST$|||"
]
},
{
"cell_type": "markdown",
"id": "c35667d6-dfc8-4a31-a1b6-faa5c8d0304d",
"metadata": {},
"source": [
"## Einfaktorieller ANOVA-Hypothesentest"
]
},
{
"cell_type": "markdown",
"id": "eb58a399-fefb-406a-b52e-0b37c508fb02",
"metadata": {},
"source": [
"Der Zweck eines **einfaktoriellen ANOVA-Hypothesentests** ist der Vergleich von $k$ Grundgesamtheits-/Gruppenmittelwerten, $\\mu_1, \\mu_2,...,\\mu_k$. \n",
"Die folgenden Annahmen müssen erfüllt sein, damit eine einseitige ANOVA angewendet werden kann ({cite:t}`fahrmeirstatistik` s.485):\n",
"\n",
"- Zufällige Stichproben\n",
"- Unabhängige Stichproben\n",
"- Für jede Grundgesamtheit ist die betrachtete Variable normalverteilt.\n",
"- Die Standardabweichungen der betrachteten Variable sind für alle Grundgesamtheiten gleich.\n",
"\n",
"Ein einfaktorieller ANOVA-Hypothesentest folgt demselben schrittweisen Verfahren wie andere Hypothesentests. "
]
},
{
"cell_type": "markdown",
"id": "18dac56a",
"metadata": {},
"source": [
"|||\n",
"|---|---|\n",
"|Schritt 1| Geben Sie die Nullhypothese $H_0$ und alternative Hypothese $H_A$ an|\n",
"|Schritt 2|Legen Sie das Signifikanzniveau,$\\alpha$ fest|\n",
"|Schritt 3|Berechnen Sie den Wert der Teststatistik|\n",
"|Schritt 4|Bestimmen Sie den p-Wert|\n",
"|Schritt 5| Wenn $p \\le \\alpha$, $H_0$ ablehnen; ansonsten $H_0$ nicht ablehnen|\n",
"|Schritt 6|Interpretieren Sie das Ergebnis des Hypothesentests|"
]
},
{
"cell_type": "markdown",
"id": "1e1aa8da-2ea6-420e-82ac-f5a1e0e53e18",
"metadata": {},
"source": [
"### Einfaktorieller ANOVA-Hypothesentest: Ein Beispiel"
]
},
{
"cell_type": "markdown",
"id": "70c5e165-6dd8-4b92-bdc2-b10c520be7cb",
"metadata": {},
"source": [
"Um praktische Erfahrungen zu sammeln, wenden wir den **einfaktoriellen ANOVA-Hypothesentest** in einer Übung an. Dazu laden wir den `students` Datensatz. Sie können die Datei `students.csv` hier herunterladen. Importieren Sie den Datensatz und geben Sie ihm einen passenden Namen."
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "17627746-49ca-4557-a442-ac3d22c7d773",
"metadata": {},
"outputs": [],
"source": [
"# Lese Datei students.csv als Dataframe ein\n",
"students = pd.read_csv(\"../../data/students.csv\")"
]
},
{
"cell_type": "markdown",
"id": "cd20ceaf-4ceb-43fa-bbfc-f4d88d03146a",
"metadata": {},
"source": [
"Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud_id, name, gender, age, height, weight, religion, nc_score, semester, major, minor, score1, score2, online_tutorial, graduated, salary.*"
]
},
{
"cell_type": "markdown",
"id": "d31cc806-0629-4eef-9206-e333323c2f3e",
"metadata": {},
"source": [
"Um den **einfaktoriellen ANOVA-Hypothesentest** zu veranschaulichen, untersuchen wir das mittlere Jahresgehalt der Absolventen, gruppiert nach ihrem Hauptstudienfach. Zur Verdeutlichung: In diesem Beispiel erfolgt die Klassifizierung/Gruppierung durch eine Variable, die Hauptvariable, den so genannten Faktor, wir führen also eine einfaktorielle ANOVA durch. In dieser Übung **wollen wir testen, ob sich das mittlere Jahresgehalt der Absolventen zwischen den Absolventen verschiedener Studienfächer unterscheidet.**"
]
},
{
"cell_type": "markdown",
"id": "900352a2-936e-49f5-8f88-b8f6c6a06e3e",
"metadata": {},
"source": [
"### Datenexploration und Aufbereitung"
]
},
{
"cell_type": "markdown",
"id": "aa1ed41b-60f0-48fd-b552-78c9f871d3b4",
"metadata": {},
"source": [
"Wir beginnen unsere Datenanalyse mit dem Zufallsstichprobenverfahren. Wir ziehen eine Zufallsstichprobe von $275$ Studenten aus dem Datensatz mit Hilfe der `sample()` Methode in Python. Wir wollen sicherstellen, dass wir nur Studenten mit abgeschlossenem Studium in die Stichprobe aufnehmen, deshalb unterteilen wir die Daten des Dataframes zuvor in Python. Des Weiteren reduzieren wir unseren Datensatz auf die zwei Variablen von Interesse, die kategoriale Variable `major` und die numerische Variable `salary`. Dann zeigen wir die ersten $10$ Zeilen des Datensatzes an."
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "41c9f204-fcaa-418d-b68e-8bba9301748d",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
major
\n",
"
salary
\n",
"
\n",
" \n",
" \n",
"
\n",
"
5019
\n",
"
Biology
\n",
"
49976.937146
\n",
"
\n",
"
\n",
"
4477
\n",
"
Political Science
\n",
"
27821.990115
\n",
"
\n",
"
\n",
"
241
\n",
"
Environmental Sciences
\n",
"
37668.890265
\n",
"
\n",
"
\n",
"
7166
\n",
"
Biology
\n",
"
60958.213489
\n",
"
\n",
"
\n",
"
2489
\n",
"
Economics and Finance
\n",
"
59920.480581
\n",
"
\n",
"
\n",
"
1194
\n",
"
Mathematics and Statistics
\n",
"
46116.221731
\n",
"
\n",
"
\n",
"
242
\n",
"
Social Sciences
\n",
"
35881.736200
\n",
"
\n",
"
\n",
"
2969
\n",
"
Economics and Finance
\n",
"
48456.787464
\n",
"
\n",
"
\n",
"
1476
\n",
"
Mathematics and Statistics
\n",
"
61384.549346
\n",
"
\n",
"
\n",
"
6765
\n",
"
Biology
\n",
"
61819.845923
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" major salary\n",
"5019 Biology 49976.937146\n",
"4477 Political Science 27821.990115\n",
"241 Environmental Sciences 37668.890265\n",
"7166 Biology 60958.213489\n",
"2489 Economics and Finance 59920.480581\n",
"1194 Mathematics and Statistics 46116.221731\n",
"242 Social Sciences 35881.736200\n",
"2969 Economics and Finance 48456.787464\n",
"1476 Mathematics and Statistics 61384.549346\n",
"6765 Biology 61819.845923"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"n = 275\n",
"data = students.loc[students[\"graduated\"] == 1, [\"major\", \"salary\"]].sample(\n",
" n, random_state=1\n",
")\n",
"data.head(10)"
]
},
{
"cell_type": "markdown",
"id": "94c1748f-e157-4ef2-aebe-5282facfeef8",
"metadata": {},
"source": [
"Aus reinem Interesse visualisieren wir die Zählungen für jede der $6$ verschiedenen Studienteilnehmer in unserer Stichprobe, indem wir ein Balkendiagramm erstellen. Wir verwenden die `barh()` Funktion aus der `mathplotlib` Bibliothek für die Darstellung."
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "dfc21929-ffd0-4673-9599-6f3d25f22743",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Text(0.5, 0, 'Anzahl')"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"fig, ax = plt.subplots()\n",
"data.groupby(\"major\")[\"salary\"].count().plot.barh(ax=ax)\n",
"ax.set_ylabel(\"\")\n",
"ax.set_xlabel(\"Anzahl\")"
]
},
{
"cell_type": "markdown",
"id": "e270927b-3ea8-48d9-a79f-9fd682544bcc",
"metadata": {},
"source": [
"Wir sehen, dass die verschiedenen Studienteilnehmer in unserer Stichprobe nicht gleich verteilt sind, aber das ist in Ordnung.\n",
"\n",
"Bevor wir mit dem Hypothesentest beginnen, überprüfen wir, ob die Annahmen für den einfaktoriellen ANOVA-Hypothesentest erfüllt sind. Die Stichproben sind Zufallsstichproben und unabhängig. Das ist in Ordnung. Wir überprüfen die Normalitätsannahme, indem wir für jede gruppierte Variable ein Normalwahrscheinlichkeitsdiagramm (Q-Q-Diagramm) erstellen."
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "8b783c69-7abc-4916-9107-4b14e76dd4f1",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Erzeuge Q-Q Plot\n",
"for _major in data.major.unique():\n",
" _ = smi.qqplot(data.loc[data[\"major\"] == _major, \"salary\"], line=\"r\")\n",
" ax = plt.gca()\n",
" ax.set_title(_major)\n",
" ax.set_xlabel(\"Theoretische Quantile\")\n",
" ax.set_ylabel(\"Stichproben Quantile\")"
]
},
{
"cell_type": "markdown",
"id": "d28fc8ff-1d22-4ad4-bf1b-75ab0fdf2a93",
"metadata": {},
"source": [
"Als nächstes testen wir die Annahme gleicher Standardabweichungen. Dazu berechnen wir die Standardabweichung für jede Gruppe. Die Programmiersprache Python bietet einige ausgezeichnete Funktionen zur Berechnung statistischer Parameter für verschiedene Gruppierungen eines Datensatzes. Für unser Beispiel verwenden wir die Funktion `pivot_table()`, um die Standardabweichungen für jede Gruppe zu berechnen."
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "f1830e68-e1ed-4c12-a6d2-7248b31363fb",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
major
\n",
"
salary
\n",
"
\n",
" \n",
" \n",
"
\n",
"
5019
\n",
"
Biology
\n",
"
49976.937146
\n",
"
\n",
"
\n",
"
4477
\n",
"
Political Science
\n",
"
27821.990115
\n",
"
\n",
"
\n",
"
241
\n",
"
Environmental Sciences
\n",
"
37668.890265
\n",
"
\n",
"
\n",
"
7166
\n",
"
Biology
\n",
"
60958.213489
\n",
"
\n",
"
\n",
"
2489
\n",
"
Economics and Finance
\n",
"
59920.480581
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" major salary\n",
"5019 Biology 49976.937146\n",
"4477 Political Science 27821.990115\n",
"241 Environmental Sciences 37668.890265\n",
"7166 Biology 60958.213489\n",
"2489 Economics and Finance 59920.480581"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"data.head()"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "768c52a2-4ce0-4c2a-931a-27f129cb7d32",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"major\n",
"Biology 8470.016077\n",
"Economics and Finance 7175.592532\n",
"Environmental Sciences 6460.464096\n",
"Mathematics and Statistics 8384.559216\n",
"Political Science 10273.903367\n",
"Social Sciences 7227.381892\n",
"Name: salary, dtype: float64"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"table = data.groupby(\"major\")[\"salary\"].std()\n",
"table"
]
},
{
"cell_type": "markdown",
"id": "7db4e5be-c2d5-41ed-a4cb-3b5b970bf0c6",
"metadata": {},
"source": [
"Als Faustregel gilt die Annahme gleicher Standardabweichungen als erfüllt, wenn das Verhältnis der größten zur kleinsten Standardabweichung der Stichprobe kleiner als $2$ ist."
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "e033c0c3-3891-478b-bb6a-fc85a10700fa",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.5902732705830243"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"ratio = table.max() / table.min()\n",
"ratio"
]
},
{
"cell_type": "markdown",
"id": "c9318331-86d4-42c2-8964-897e42701fcb",
"metadata": {},
"source": [
"Das Verhältnis zwischen der größten und der kleinsten Standardabweichung der Stichprobe beträgt $1,59$. Das liegt nahe am Schwellenwert von $2$, ist aber für unser Musterbeispiel noch akzeptabel. Daraus können wir schließen, dass die Annahmen erfüllt sind.\n",
"\n",
"Beachten Sie, dass die einseitige ANOVA robust gegenüber moderaten Verstößen gegen die Normalitätsannahme und die Annahme gleicher Standardabweichungen ist ({cite:t}`fahrmeirstatistik` s.486)."
]
},
{
"cell_type": "markdown",
"id": "beff4e78-3e59-4f27-82fa-b2331ec2eb6b",
"metadata": {
"tags": []
},
"source": [
"### Überprüfung der Hypothesen"
]
},
{
"cell_type": "markdown",
"id": "f3f1d15c-2408-4847-8a86-1021b4eca0ad",
"metadata": {},
"source": [
"Um den **einfaktoriellen ANOVA-Hypothesentest** durchzuführen, folgen wir dem schrittweisen Durchführungsverfahren für Hypothesentests."
]
},
{
"cell_type": "markdown",
"id": "ee32c7b9-1e03-4e57-8fcc-c5df0fb21d3c",
"metadata": {},
"source": [
"**Schritt 1 : Geben Sie die Nullhypothese $H_0$ und alternative Hypothese $H_A$ an**"
]
},
{
"cell_type": "markdown",
"id": "ed155539-6de7-4003-94df-4f295bdca8d8",
"metadata": {},
"source": [
"Die Nullhypothese besagt, dass das mittlere Jahresgehalt bei allen Gruppen von Absolventen gleich ist."
]
},
{
"cell_type": "markdown",
"id": "1bed1841-c421-40a8-a792-7e8f58213293",
"metadata": {},
"source": [
"$$H_0: \\quad \\mu_1=\\mu_2=\\mu_3=\\mu_4=\\mu_5=\\mu_6$$"
]
},
{
"cell_type": "markdown",
"id": "16c3c394-458d-400f-ae9d-47c472f266b0",
"metadata": {},
"source": [
"**Alternative Hypothese**"
]
},
{
"cell_type": "markdown",
"id": "6f2eab79-9dc9-4b56-b0e1-93efc214f7d3",
"metadata": {},
"source": [
"$$H_A: \\quad \\text{Nicht alle Mittelwerte sind gleich}$$"
]
},
{
"cell_type": "markdown",
"id": "e753611d-9467-489a-b5ed-aeb33909745c",
"metadata": {},
"source": [
"**Schritt 2: Legen Sie das Signifikanzniveau,$\\alpha$ fest**"
]
},
{
"cell_type": "markdown",
"id": "0788b846-5b36-4a9b-8834-17939a7c6645",
"metadata": {},
"source": [
"$$\\alpha = 0,01$$"
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "d9b6b426-3361-4592-963f-664a6a819fe1",
"metadata": {},
"outputs": [],
"source": [
"alpha = 0.01"
]
},
{
"cell_type": "markdown",
"id": "3cfdcb51-daa5-4f30-9839-760250182748",
"metadata": {},
"source": [
"**Schritt 3 und 4: Berechnen Sie den Wert der Teststatistik und den $p$-Wert**"
]
},
{
"cell_type": "markdown",
"id": "25d990c7-c7a2-4ce4-a3b6-c04ed6024e24",
"metadata": {
"tags": []
},
"source": [
"Um die $F$-Test-Statistik zu berechnen, müssen wir zuvor mehrere Größen bestimmen. Zur Veranschaulichung berechnen wir die $F$-Teststatistik manuell in Python. Schritt für Schritt füllen wir die ANOVA-Tabelle aus, bis wir schließlich die $F$-Teststatistik und folglich den $p$-Wert erhalten."
]
},
{
"cell_type": "markdown",
"id": "756f7ab4",
"metadata": {},
"source": [
"|Quelle|$df$|Summe der Quadrate (SS)| Mittlere Quadrate (MS)|$F$-Statistik|$p$-Wert|\n",
"|---|---|---|---|---|---|\n",
"|Gruppe/Klasse|$k-1$|$SSG$|$MSG = \\frac{SSG}{k-1}$|$F=\\frac{MSG}{MSE}$| $p$|\n",
"|Fehler/Residuen|$n-k$|$SSE$|$MSE=\\frac{SSE}{n-k}$||\n",
"|Insgesamt|$n-1$|$SST$|||"
]
},
{
"cell_type": "markdown",
"id": "70a20bef-9d59-4523-a35c-a597bb6e4031",
"metadata": {},
"source": [
"Wir beginnen mit der ersten Spalte und berechnen die Freiheitsgrade."
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "6d82de82-ef8f-41c3-8b98-fc2e95048c68",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"5"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"k = data[\"major\"].nunique()\n",
"n = data.shape[0]\n",
"\n",
"df_G = k - 1\n",
"df_G"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "30362ec4-3b70-4aca-9074-e80257818ede",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"269"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_E = n - k\n",
"df_E"
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "2e018888-bbae-4b93-8af4-afcb2ab32d75",
"metadata": {
"tags": []
},
"outputs": [
{
"data": {
"text/plain": [
"274"
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_T = n - 1\n",
"df_T"
]
},
{
"cell_type": "markdown",
"id": "67ac3872",
"metadata": {},
"source": [
"|Quelle|$df$|Summe der Quadrate (SS)| Mittlere Quadrate (MS)|$F$-Statistik|$p$-Wert|\n",
"|---|---|---|---|---|---|\n",
"|Gruppe/Klasse|$5$|$SSG$|$MSG = \\frac{SSG}{k-1}$|$F=\\frac{MSG}{MSE}$| $p$|\n",
"|Fehler/Residuen|$269$|$SSE$|$MSE=\\frac{SSE}{n-k}$||\n",
"|Insgesamt|$274$|$SST$|||"
]
},
{
"cell_type": "markdown",
"id": "33e3999f-39f6-4291-b4dd-e859f113c11a",
"metadata": {},
"source": [
"Außerdem berechnen wir die drei Summen der Quadrate, $SST$, $SSG$ und $SSE$. Erinnern Sie sich an die Gleichungen von oben."
]
},
{
"cell_type": "markdown",
"id": "68fbfc3a-1ac4-468a-92a7-b6a61d29f9a4",
"metadata": {},
"source": [
"$$SST = \\sum_{i=1}^n(x_i-\\bar x)^2\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "97080283-d55f-4ad0-8640-94535b230ea8",
"metadata": {},
"source": [
"wobei $x_i$den Beobachtungen in den Stichproben und $\\bar x$ dem Gesamtmittelwert aller Stichproben entspricht."
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "99d49062-627f-4dcd-89ee-27cc4dbb6dbd",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"33169011167.80223"
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne Gesamtmittelwert\n",
"x_bar = data[\"salary\"].mean()\n",
"\n",
"# Beobachtungen\n",
"xi = data[\"salary\"]\n",
"\n",
"# Berechne SST\n",
"SST = np.sum((xi - x_bar) ** 2)\n",
"SST"
]
},
{
"cell_type": "markdown",
"id": "a4671f95-e95d-43ce-b5ff-fa025b9bfec7",
"metadata": {},
"source": [
"$$SSG = \\sum_{i=1}^n n_j(\\bar x_i-\\bar x)^2$$"
]
},
{
"cell_type": "markdown",
"id": "1dc9432e-2089-4c19-8e2a-049582ffaa3a",
"metadata": {},
"source": [
"Dabei steht $n_j$ für den Stichprobenumfang der Gruppe $j, \\bar{x}_i$ für den Mittelwert der Gruppe $j$ und $\\bar x$ für den Gesamtmittelwert aller Stichproben."
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "a00ac31e-7c85-4952-a130-0b0b95610243",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"major\n",
"Biology 50\n",
"Economics and Finance 48\n",
"Environmental Sciences 53\n",
"Mathematics and Statistics 40\n",
"Political Science 50\n",
"Social Sciences 34\n",
"Name: salary, dtype: int64"
]
},
"execution_count": 15,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"n_j = data.groupby(\"major\")[\"salary\"].count()\n",
"n_j"
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "08950881-e69d-4c68-8687-196df3a175a4",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"15425759144.907019"
]
},
"execution_count": 16,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne Stichprobengrösse für alle Gruppen\n",
"n_j = data.groupby(\"major\")[\"salary\"].count()\n",
"\n",
"# Berechne Mittelwert für alle Gruppen\n",
"xi_bar = data.groupby(\"major\")[\"salary\"].mean()\n",
"\n",
"# Berechne SSG\n",
"SSG = np.sum(n_j * (xi_bar - x_bar) ** 2)\n",
"SSG"
]
},
{
"cell_type": "markdown",
"id": "1e88b45e-7820-4d6b-90c0-230d1aba934b",
"metadata": {
"tags": []
},
"source": [
"$$SSE = \\sum_{i=1}^n (n_j-1)s_j^2\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "197a7efe-584d-4ab6-9bc9-6593e64e9e64",
"metadata": {},
"source": [
"wobei $n_j$ den Stichprobenumfang für die Gruppe $j$ und $s^2_j$ die Varianz der Gruppe $j$ bezeichnet."
]
},
{
"cell_type": "code",
"execution_count": 17,
"id": "279e0943-7927-49c1-9899-59cd1784ddd0",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"17743252022.895218"
]
},
"execution_count": 17,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne Standardabweichung für die einzelnen Gruppen\n",
"s2_j = data.groupby(\"major\")[\"salary\"].std()\n",
"\n",
"# Berechne SSE\n",
"SSE = np.sum((n_j - 1.0) * s2_j**2.0)\n",
"SSE"
]
},
{
"cell_type": "code",
"execution_count": 18,
"id": "211ad60c-ea06-4f56-bb74-a761f006acef",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"17743252022.89521"
]
},
"execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# alternativ kann SSE auch so berechnet werden\n",
"SSE2 = SST - SSG\n",
"SSE2"
]
},
{
"cell_type": "markdown",
"id": "92f95249",
"metadata": {},
"source": [
"|Quelle|$df$|Summe der Quadrate (SS)| Mittlere Quadrate (MS)|$F$-Statistik|$p$-Wert|\n",
"|---|---|---|---|---|---|\n",
"|Gruppe/Klasse|$5$|$1,542576 \\cdot 10^{10}$|$MSG = \\frac{SSG}{k-1}$|$F=\\frac{MSG}{MSE}$| $p$|\n",
"|Fehler/Residuen|$269$|$1,774325 \\cdot 10^{10}$|$MSE=\\frac{SSE}{n-k}$||\n",
"|Insgesamt|$274$|$3,316901 \\cdot 10^{10}$|||"
]
},
{
"cell_type": "markdown",
"id": "26322c99-8443-4bec-8164-6c3b1dbd411d",
"metadata": {},
"source": [
"Nun berechnen wir die beiden Maße für die mittlere Variabilität, $MSG$ und $MSE$."
]
},
{
"cell_type": "code",
"execution_count": 19,
"id": "05a5e272-c76f-4bab-9b17-e662aa957849",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"3085151828.981404"
]
},
"execution_count": 19,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne MSG\n",
"MSG = SSG / (k - 1)\n",
"MSG"
]
},
{
"cell_type": "code",
"execution_count": 20,
"id": "c2f4604e-4267-40d1-905c-354ebaf0719a",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"65960044.694777764"
]
},
"execution_count": 20,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne MSE\n",
"MSE = SSE / (n - k)\n",
"MSE"
]
},
{
"cell_type": "markdown",
"id": "d1df3fa6",
"metadata": {},
"source": [
"|Quelle|$df$|Summe der Quadrate (SS)| Mittlere Quadrate (MS)|$F$-Statistik|$p$-Wert|\n",
"|---|---|---|---|---|---|\n",
"|Gruppe/Klasse|$5$|$1,542576 \\cdot 10^{10}$|$3,085152 \\cdot 10^{9}$|$F=\\frac{MSG}{MSE}$| $p$|\n",
"|Fehler/Residuen|$269$|$1,774325 \\cdot 10^{10}$|$6,596004 \\cdot 10^{7}$||\n",
"|Insgesamt|$274$|$3,316901 \\cdot 10^{10}$|||"
]
},
{
"cell_type": "markdown",
"id": "5a6c290d-fd99-418e-a4a4-9ee1d4a4198e",
"metadata": {},
"source": [
"Schließlich erhalten wir die $F$-Statistiken durch das Verhältnis von $MSG$ und $MSE$."
]
},
{
"cell_type": "code",
"execution_count": 21,
"id": "a09a2c4a-bd55-4606-8c7c-a96f3085afde",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"46.77304030428687"
]
},
"execution_count": 21,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Berechne Teststatistik\n",
"Fstat = MSG / MSE\n",
"Fstat"
]
},
{
"cell_type": "markdown",
"id": "3ee294b9",
"metadata": {},
"source": [
"|Quelle|$df$|Summe der Quadrate (SS)| Mittlere Quadrate (MS)|$F$-Statistik|$p$-Wert|\n",
"|---|---|---|---|---|---|\n",
"|Gruppe/Klasse|$5$|$1,542576 \\cdot 10^{10}$|$3,085152 \\cdot 10^{9}$|$46,77304$| $p$|\n",
"|Fehler/Residuen|$269$|$1,774325 \\cdot 10^{10}$|$6,596004 \\cdot 10^{7}$||\n",
"|Insgesamt|$274$|$3,316901 \\cdot 10^{10}$|||"
]
},
{
"cell_type": "markdown",
"id": "9ded2806-ce16-46d2-a00f-3ecca6534dfd",
"metadata": {},
"source": [
"Im letzten Schritt berechnen wir den $p$-Wert durch Aufruf der Funktion `f.cdf()` in Python. Erinnern Sie sich, wie man die Freiheitsgrade berechnet."
]
},
{
"cell_type": "markdown",
"id": "b0f2a6db-d482-4571-aa4a-f32ae9553b7e",
"metadata": {},
"source": [
"$$df = (k-1, n-k)$$"
]
},
{
"cell_type": "markdown",
"id": "01807a4f-987f-4b5c-aadd-acf132e15d19",
"metadata": {},
"source": [
"Da die Nullhypothese nur dann abgelehnt wird, wenn die Teststatistik $F$ zu groß ist, ist ein einfaktorieller ANOVA-Test immer rechtsschief."
]
},
{
"cell_type": "code",
"execution_count": 22,
"id": "5a63d46c-a1d3-4953-a91d-3afe24d3a490",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.0932120917246151e-34"
]
},
"execution_count": 22,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df1 = k - 1\n",
"df2 = n - k\n",
"\n",
"p_value = f.sf(Fstat, dfn=df1, dfd=df2)\n",
"p_value"
]
},
{
"cell_type": "markdown",
"id": "295d16cc",
"metadata": {},
"source": [
"|Quelle|$df$|Summe der Quadrate (SS)| Mittlere Quadrate (MS)|$F$-Statistik|$p$-Wert|\n",
"|---|---|---|---|---|---|\n",
"|Gruppe/Klasse|$5$|$1,542576 \\cdot 10^{10}$|$3,085152 \\cdot 10^{9}$|$46,77304$| $1,093212 \\cdot 10^{-34}$|\n",
"|Fehler/Residuen|$269$|$1,774325 \\cdot 10^{10}$|$6,596004 \\cdot 10^{7}$||\n",
"|Insgesamt|$274$|$3,316901 \\cdot 10^{10}$|||"
]
},
{
"cell_type": "markdown",
"id": "6750b98f-0005-488e-b82c-3db98491902f",
"metadata": {},
"source": [
"**Schritt 5: Wenn $p \\le \\alpha , H_0$ ablehnen; ansonsten $H_0$ nicht ablehnen**"
]
},
{
"cell_type": "code",
"execution_count": 23,
"id": "bbcc6a0e-e9f0-438e-a36e-8b7db2da6dcd",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"True"
]
},
"execution_count": 23,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"p_value <= alpha"
]
},
{
"cell_type": "markdown",
"id": "b4a7f429-6279-4203-b9e1-b74081059fe5",
"metadata": {},
"source": [
"Der $p$-Wert ist kleiner als das angegebene Signifikanzniveau von $0,01$; wir verwerfen $H_0$. Die Testergebnisse sind statistisch signifikant auf dem $1 \\%$-Niveau und liefern einen sehr starken Beweis gegen die Nullhypothese."
]
},
{
"cell_type": "markdown",
"id": "868f87e1-c750-4238-8ac0-f4bc6549a027",
"metadata": {},
"source": [
"**Schritt 6: Interpretieren Sie das Ergebnis des Hypothesentests**"
]
},
{
"cell_type": "markdown",
"id": "339a5ad5-afb1-4b45-b406-5a3cc4f685dd",
"metadata": {},
"source": [
"$p=1,093212 \\cdot 10^{-34}$. Bei einem Signifikanzniveau von $1 \\%$ liefern die Daten sehr starke Hinweise darauf, dass sich mindestens ein Paar von Gruppenmittelwerten voneinander unterscheidet."
]
},
{
"cell_type": "markdown",
"id": "113352fa-0e0f-470c-92be-4a081b9cffc4",
"metadata": {},
"source": [
"### Hypothesentests in Python"
]
},
{
"cell_type": "markdown",
"id": "90429755-b662-49f5-83d9-bfa6e503886b",
"metadata": {},
"source": [
"Wir haben gerade einen einfaktoriellen ANOVA-Hypothesentest in Python manuell durchgeführt. Toll, aber jetzt wiederholen wir das Beispiel und nutzen die Möglichkeiten von Python, um das gleiche Ergebnis wie oben mit nur wenigen Zeilen Code zu erhalten!\n",
"\n",
"Um einen einseitigen ANOVA-Hypothesentest in Python durchzuführen, verwenden wir die Funktion `f_oneway()`. Die `f_oneway()`-Funktion erwartet die Eingabe der zu vergleichenden Untergruppen. Hierfür verwenden wir eine `list-comprehension`. Außerdem lesen wir die $F$-Teststatistik `statistics` und $p$-Wert `p_value` aus."
]
},
{
"cell_type": "code",
"execution_count": 24,
"id": "670c2d14-9989-43ae-927f-c123c2042404",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Wert der F-Statistik: 46.773040304286866\n",
"p-Wert: 1.0932120917246455e-34\n"
]
}
],
"source": [
"dat = [\n",
" data.loc[data[\"major\"] == major, \"salary\"].values\n",
" for major in data[\"major\"].unique()\n",
"]\n",
"statistics, pvalue = f_oneway(*dat)\n",
"\n",
"print(f\"Wert der F-Statistik: {statistics}\")\n",
"print(f\"p-Wert: {pvalue}\")"
]
},
{
"cell_type": "markdown",
"id": "65987448-de82-4f81-b4ec-9b51e070dd80",
"metadata": {},
"source": [
"Es hat gut funktioniert! Vergleichen Sie die Ausgabe der Funktion `f_oneway()` mit unserem Ergebnis von oben. Auch hier können wir zu dem Schluss kommen, dass die Daten bei einem Signifikanzniveau von $1 \\%$ sehr starke Hinweise darauf liefern, dass sich mindestens ein Paar von Gruppenmitteln voneinander unterscheidet."
]
},
{
"cell_type": "markdown",
"id": "d30d803a-2706-4d8f-b96d-0b545376f733",
"metadata": {
"tags": []
},
"source": [
"## Multiples Testproblem"
]
},
{
"cell_type": "markdown",
"id": "05877db9-f9a7-455c-8102-173d8630ee09",
"metadata": {},
"source": [
"Eine Einschränkung der ANOVA besteht darin, dass wir, wenn wir die Nullhypothese ablehnen, feststellen, dass die Mittelwerte der betrachteten Populationen nicht alle gleich sind. Wir können jedoch weder entscheiden, welche Mittelwerte unterschiedlich sind, noch, in welchem Verhältnis die Mittelwerte zueinander stehen.\n",
"\n",
"Um diese Frage zu klären, wenden wir Methoden an, die als **multiples Testen** oder **Mehrfachvergleiche** bezeichnet werden. Das Problem bei Mehrfachvergleichen ist, dass je mehr Hypothesen für einen bestimmten Datensatz getestet werden, desto wahrscheinlicher ist es, dass die Nullhypothese fälschlicherweise zurückgewiesen wird. Daher erfordern die Methoden des Mehrfachvergleichs eine höhere Signifikanzschwelle ($\\alpha$) für einzelne Vergleiche, um die Anzahl der gezogenen Schlüsse zu kompensieren."
]
},
{
"cell_type": "markdown",
"id": "acf0bc3c-6d7a-4b02-8906-904fcfeb40ac",
"metadata": {},
"source": [
"### Alphafehler-Kumulierung (engl. Family Wise Error Rate - FWER)"
]
},
{
"cell_type": "markdown",
"id": "6b234a1c-1b59-4244-846b-d5a5e6cdf775",
"metadata": {},
"source": [
"Eine **Testfamilie** ist der Fachbegriff für eine Reihe von Tests, die an einem Datensatz durchgeführt werden. Die Alphafehler-Kumulierung (engl. Family Wise Error Rate) ist die Wahrscheinlichkeit, dass bei der Durchführung von Mehrfachhypothesentests ein oder mehrere falsche Zurückweisungen der Null-Hypothese oder Fehler vom Typ I gemacht werden.\n",
"\n",
"Es sei daran erinnert, dass bei einem Signifikanzniveau von $\\alpha=0,05$ die Wahrscheinlichkeit, einen Fehler vom Typ I zu machen, $0,05$ oder $5 \\%$ beträgt. Folglich ist die Wahrscheinlichkeit, keinen Fehler vom Typ I zu machen, $1-\\alpha=1-0,05=0,95$. Außerdem ist die Wahrscheinlichkeit, zwei unabhängige Ereignisse zu beobachten, das Produkt ihrer Wahrscheinlichkeiten. Wenn wir also zwei unabhängige Tests durchführen, ist die Wahrscheinlichkeit, beim ersten und beim zweiten Test keinen Fehler vom Typ I zu machen"
]
},
{
"cell_type": "markdown",
"id": "17383fa0-330c-4ca0-a3ec-bfde8f0125b9",
"metadata": {},
"source": [
"$$(1-\\alpha) \\times (1-\\alpha) = (1-\\alpha)^2$$"
]
},
{
"cell_type": "markdown",
"id": "9eee4182-dd78-4a36-b6b7-55e847b38fe3",
"metadata": {},
"source": [
"Wenn $\\alpha=0,05$ ist, ergibt sich eine Wahrscheinlichkeit, dass beim ersten und zweiten Test kein Fehler vom Typ I auftritt, von"
]
},
{
"cell_type": "markdown",
"id": "f364e082-ca01-426b-a892-28c1279e8e7b",
"metadata": {},
"source": [
"$$(1 - \\alpha)^2 = (1-0,05)^2 = 0,95^2 \\approx 0,902$$"
]
},
{
"cell_type": "markdown",
"id": "a5257da5-0f03-44cc-a7be-e7b08f695d31",
"metadata": {},
"source": [
"Für eine Familie von $C$-Tests ist die Wahrscheinlichkeit, dass kein Fehler vom Typ I für die gesamte Familie auftritt, formal ausgedrückt"
]
},
{
"cell_type": "markdown",
"id": "7ff7a527-ba1a-41b8-ae36-2d502975811f",
"metadata": {},
"source": [
"$$(1-\\alpha)^C\\text{.}$$"
]
},
{
"cell_type": "markdown",
"id": "5d44e298-bba0-41c6-9079-24d1f2ca2c1e",
"metadata": {},
"source": [
"Betrachten wir nun $C=10$ und $\\alpha=0,05$. Wir führen also $10$ Mehrfachvergleiche mit einem Datensatz durch. Die Wahrscheinlichkeit, keinen Fehler vom Typ I in der Familie zu machen, ist dann"
]
},
{
"cell_type": "markdown",
"id": "ce65cab2-0e60-48a9-9c66-dc89b36b14d6",
"metadata": {},
"source": [
"$$(1-\\alpha)^C=(1-0,05)^{10} \\approx 0,599$$"
]
},
{
"cell_type": "markdown",
"id": "be1feef6-7343-49e0-ace2-2037a453e9ec",
"metadata": {},
"source": [
"Folglich ist die Wahrscheinlichkeit, dass **ein oder mehrere Fehler vom Typ I** in der Testfamilie auftreten"
]
},
{
"cell_type": "markdown",
"id": "0c978519-109d-44cd-b8b9-0a238fdf1967",
"metadata": {},
"source": [
"$$1 - (1-\\alpha)^C$$"
]
},
{
"cell_type": "markdown",
"id": "000d8e09-b0e4-4d60-b712-51ca3518c7f6",
"metadata": {},
"source": [
"Für unser Beispiel finden wir"
]
},
{
"cell_type": "markdown",
"id": "23428c8a-dad4-4086-ac4f-c342a8da33ee",
"metadata": {},
"source": [
"$$1 - (1-\\alpha)^C = 1 - (1-0,05)^{10} \\approx 0,401$$"
]
},
{
"cell_type": "markdown",
"id": "720e034d-9797-439f-a20f-bfaeeaa29357",
"metadata": {},
"source": [
"Somit ist bei $\\alpha=0,05$ für jeden der $10$ Mehrfachvergleiche die Wahrscheinlichkeit, dass die Nullhypothese falsch zurückgewiesen wird, $0,401$ oder $40,1 \\%$.\n",
"\n",
"Um diesem Problem Rechnung zu tragen, gibt es mehrere statistische Methoden. In diesem Abschnitt werden die Bonferroni-Korrektur und die Tukey-Test, auch bekannt als **Tukeys HSD-Test (hoenstly significant difference)**, behandelt."
]
},
{
"cell_type": "markdown",
"id": "fbef8cd4-718b-4626-87b4-07786845243f",
"metadata": {},
"source": [
"### Beispiel-Daten"
]
},
{
"cell_type": "markdown",
"id": "4308a978-9fc0-4b7b-bfcd-1a982b462de9",
"metadata": {},
"source": [
"In diesem Abschnitt wiederholen wir das Beispiel aus dem vorherigen Abschnitt. Dort haben wir eine einfaktorielle ANOVA angewandt, um zu **testen, ob sich das mittlere Jahresgehalt der Absolventen zwischen den Absolventen verschiedener Studienfächer unterscheidet**. Dieses Mal werden wir jedoch mehrere Vergleiche durchführen, um die Beziehung zwischen allen Gruppenmittelwerten zu analysieren.\n",
"\n",
"Laden Sie den `students` Datensatz erneut (Sie können die Datei `students.csv` hier herunterladen)."
]
},
{
"cell_type": "code",
"execution_count": 25,
"id": "874e4d96-3426-4546-9b2a-b06436c7c301",
"metadata": {},
"outputs": [],
"source": [
"# Lese Datei students.csv als Dataframe ein\n",
"students = pd.read_csv(\"../../data/students.csv\")"
]
},
{
"cell_type": "markdown",
"id": "33f64541-0024-444b-892c-04bc3e4bef98",
"metadata": {},
"source": [
"Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud_id, name, gender, age, height, weight, religion, nc_score, semester, major, minor, score1, score2, online_tutorial, graduated, salary.*"
]
},
{
"cell_type": "markdown",
"id": "fb63fe9a-0f3b-49d9-9a21-225615a8d494",
"metadata": {},
"source": [
"Aus dem Datensatz der Studierenden ziehen wir eine Zufallsstichprobe von $275$ Absolventen und reduzieren den Datensatz auf die beiden interessierenden Variablen, die kategoriale Variable `major` und die numerische Variable `salary`. Für eine bessere Lesbarkeit in der folgenden Analyse ersetzen wir die Namen der Studienfächer durch entsprechende Abkürzungen."
]
},
{
"cell_type": "code",
"execution_count": 26,
"id": "b24dd642-58b2-4f3a-ad34-8b44260f5dd3",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
major
\n",
"
salary
\n",
"
\n",
" \n",
" \n",
"
\n",
"
3826
\n",
"
MaSt
\n",
"
57849.343490
\n",
"
\n",
"
\n",
"
795
\n",
"
MaSt
\n",
"
56558.160738
\n",
"
\n",
"
\n",
"
2127
\n",
"
PoS
\n",
"
46945.174104
\n",
"
\n",
"
\n",
"
1292
\n",
"
Bio
\n",
"
40093.455971
\n",
"
\n",
"
\n",
"
5913
\n",
"
EnS
\n",
"
35106.961865
\n",
"
\n",
"
\n",
"
1871
\n",
"
EnS
\n",
"
33216.118981
\n",
"
\n",
"
\n",
"
1853
\n",
"
EnS
\n",
"
30606.198317
\n",
"
\n",
"
\n",
"
1484
\n",
"
PoS
\n",
"
37240.113342
\n",
"
\n",
"
\n",
"
5619
\n",
"
MaSt
\n",
"
50913.038493
\n",
"
\n",
"
\n",
"
2299
\n",
"
EcFi
\n",
"
50365.098269
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" major salary\n",
"3826 MaSt 57849.343490\n",
"795 MaSt 56558.160738\n",
"2127 PoS 46945.174104\n",
"1292 Bio 40093.455971\n",
"5913 EnS 35106.961865\n",
"1871 EnS 33216.118981\n",
"1853 EnS 30606.198317\n",
"1484 PoS 37240.113342\n",
"5619 MaSt 50913.038493\n",
"2299 EcFi 50365.098269"
]
},
"execution_count": 26,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"n = 275\n",
"data = students.loc[students[\"graduated\"] == 1, [\"major\", \"salary\"]].sample(\n",
" n, random_state=300\n",
")\n",
"\n",
"lookup = {\n",
" \"Biology\": \"Bio\",\n",
" \"Political Science\": \"PoS\",\n",
" \"Economics and Finance\": \"EcFi\",\n",
" \"Environmental Sciences\": \"EnS\",\n",
" \"Mathematics and Statistics\": \"MaSt\",\n",
" \"Social Sciences\": \"SoS\",\n",
"}\n",
"data[\"major\"] = data[\"major\"].apply(lambda x: lookup[x])\n",
"\n",
"data.head(10)"
]
},
{
"cell_type": "markdown",
"id": "fad39d75-4b71-4c02-aaaf-4c3f13602b4a",
"metadata": {},
"source": [
"Des Weiteren führen wir einen einfaktoriellen ANOVA-Hypothesentest in Python durch, indem wir die Funktion `f_oneway()` anwenden."
]
},
{
"cell_type": "code",
"execution_count": 27,
"id": "763bdf06-78e8-4b98-ba8b-8f808ba197e3",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Wert der F-Statistik: 41.14261241723518\n",
"p-Wert: 2.283897894495435e-31\n"
]
}
],
"source": [
"dat = [\n",
" data.loc[data[\"major\"] == major, \"salary\"].values\n",
" for major in data[\"major\"].unique()\n",
"]\n",
"statistics, pvalue = f_oneway(*dat)\n",
"\n",
"print(f\"Wert der F-Statistik: {statistics}\")\n",
"print(f\"p-Wert: {pvalue}\")"
]
},
{
"cell_type": "markdown",
"id": "f8375608-c4c0-4ef5-b505-cbc3cd2e3331",
"metadata": {},
"source": [
"### Bonferroni-Korrektur"
]
},
{
"cell_type": "markdown",
"id": "1777a6b2-c34f-4331-b04d-66bd994ebd3a",
"metadata": {},
"source": [
"Die Bonferroni-Korrektur kompensiert die erhöhte Wahrscheinlichkeit, dass eine Nullhypothese aufgrund von Mehrfachvergleichen fälschlicherweise abgelehnt wird (Fehler vom Typ I), indem das Signifikanzniveau $\\alpha$ in folgender Form angepasst wird"
]
},
{
"cell_type": "markdown",
"id": "632f9f96-1ff8-4ded-9e49-7727c1b66c41",
"metadata": {},
"source": [
"$$\\alpha = \\frac{\\alpha}{m}\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "6a698c86-8b72-4454-9f6e-f868ac7636f0",
"metadata": {},
"source": [
"wobei $m$ der Anzahl der Vergleiche entspricht, die gegeben ist durch"
]
},
{
"cell_type": "markdown",
"id": "6169c6fd-1493-4521-97e8-6de1ae96b753",
"metadata": {},
"source": [
"$$m=\\frac{k(k-1)}{2}\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "d57c69a5-f6ce-45a7-bb64-59ac565829ad",
"metadata": {},
"source": [
"wobei $k$ den Ebenen des Faktors entspricht, der die kategoriale Klassifikationsvariable ist."
]
},
{
"cell_type": "code",
"execution_count": 28,
"id": "e9466fd6-f534-487a-a10c-b07c92f516dc",
"metadata": {},
"outputs": [],
"source": [
"def bonferroni(alpha, k):\n",
" \"\"\"Computes the boferroni correction\"\"\"\n",
" m = k * (k - 1) / 2\n",
" bonf = alpha / m\n",
" return bonf"
]
},
{
"cell_type": "markdown",
"id": "cd7e6795-11fb-4515-bbeb-7265cd2c92fe",
"metadata": {},
"source": [
"### Der paarweiser $t$-Test in Python: Bonferroni-Korrektur"
]
},
{
"cell_type": "markdown",
"id": "010701b8-cbe8-49af-bb5d-ccf0ada19162",
"metadata": {},
"source": [
"Wie im vorigen Abschnitt erwähnt, ist eine einfaktorielle Varianzanalyse die Verallgemeinerung des $2$-Stichproben $t$-Tests auf mehr als zwei Grundgesamtheiten. Die Python-Funktion zur Durchführung von Mehrfachvergleichen ist `ttest_ind()`. Die Funktion `ttest_ind()` vergleicht die jeweiligen Gehaltsverteilungen (`salary`) nach Studienfächer gruppiert (`major`) miteinander."
]
},
{
"cell_type": "markdown",
"id": "1af46981-44ba-40cd-a91a-3442d58ec13b",
"metadata": {},
"source": [
"Zunächst führen wir einen paarweisen $t$-Test ohne Anpassung durch, wodurch sich die Wahrscheinlichkeit erhöht, dass die Nullhypothese falsch zurückgewiesen wird."
]
},
{
"cell_type": "code",
"execution_count": 29,
"id": "b70dc8ed-be28-4128-ba6c-fec41db50f2a",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"[('MaSt', 'PoS'),\n",
" ('MaSt', 'Bio'),\n",
" ('MaSt', 'EnS'),\n",
" ('MaSt', 'EcFi'),\n",
" ('MaSt', 'SoS'),\n",
" ('PoS', 'Bio'),\n",
" ('PoS', 'EnS'),\n",
" ('PoS', 'EcFi'),\n",
" ('PoS', 'SoS'),\n",
" ('Bio', 'EnS'),\n",
" ('Bio', 'EcFi'),\n",
" ('Bio', 'SoS'),\n",
" ('EnS', 'EcFi'),\n",
" ('EnS', 'SoS'),\n",
" ('EcFi', 'SoS')]"
]
},
"execution_count": 29,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from itertools import combinations\n",
"\n",
"major = list(combinations(data.major.unique(), 2))\n",
"major"
]
},
{
"cell_type": "code",
"execution_count": 30,
"id": "532c5b58-8b87-4b29-bf81-6e74938a8219",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"MaSt vs. PoS\n",
"p-value: 5.2857708581268477e-11\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"MaSt vs. Bio\n",
"p-value: 0.23955813674375898\n",
"Reject H0 (p-value <= 0.05): False\n",
"\n",
"MaSt vs. EnS\n",
"p-value: 2.8739133454494936e-10\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"MaSt vs. EcFi\n",
"p-value: 0.6139629263411384\n",
"Reject H0 (p-value <= 0.05): False\n",
"\n",
"MaSt vs. SoS\n",
"p-value: 1.0518783466253219e-10\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"PoS vs. Bio\n",
"p-value: 4.8406849116995696e-15\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"PoS vs. EnS\n",
"p-value: 0.120165093300726\n",
"Reject H0 (p-value <= 0.05): False\n",
"\n",
"PoS vs. EcFi\n",
"p-value: 2.649042688427034e-12\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"PoS vs. SoS\n",
"p-value: 0.23097741142110123\n",
"Reject H0 (p-value <= 0.05): False\n",
"\n",
"Bio vs. EnS\n",
"p-value: 1.790220430001192e-14\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"Bio vs. EcFi\n",
"p-value: 0.5127682352930607\n",
"Reject H0 (p-value <= 0.05): False\n",
"\n",
"Bio vs. SoS\n",
"p-value: 6.474671293237731e-14\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"EnS vs. EcFi\n",
"p-value: 8.151876693739742e-12\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"EnS vs. SoS\n",
"p-value: 0.00557583127097583\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n",
"EcFi vs. SoS\n",
"p-value: 7.1456783247184506e-12\n",
"Reject H0 (p-value <= 0.05): True\n",
"\n"
]
}
],
"source": [
"alpha = 0.05\n",
"\n",
"for major1, major2 in major:\n",
" _, p_value = ttest_ind(\n",
" data.loc[data[\"major\"] == major1, \"salary\"],\n",
" data.loc[data[\"major\"] == major2, \"salary\"],\n",
" )\n",
" print(f\"{major1} vs. {major2}\")\n",
" print(f\"p-value: {p_value}\")\n",
" print(f\"Reject H0 (p-value <= {alpha}): {p_value <= alpha}\\n\")"
]
},
{
"cell_type": "markdown",
"id": "4f5431ad-2f8d-41bb-95cc-fe349d07cc7d",
"metadata": {},
"source": [
"Der paarweise $t$-Test zeigt, dass bei einem Signifikanzniveau von $5 \\%$ die Mittelwerte für $5$ Kombinationen **nicht** statistisch signifikant unterschiedlich sind. Diese Kombinationen sind Bio-EcFi, Bio-MaSt, EcFi-MaSt, EnS-PoS, PoS-SoS mit $p$-Werten von $0,5128$, $0,2396$, $0,61396$ , $0,1202$ , $0,635057$ bzw. $0,230977$. Für die restlichen $10$ Kombinationen verwerfen wir $H_0$; d. h. für $10$ Kombinationen sind die Mittelwerte bei einem Signifikanzniveau von $5 \\%$ unterschiedlich!\n",
"\n",
"Zweitens führen wir einen **paarweisen $t$-Test mit der Bonferroni-Anpassung** durch."
]
},
{
"cell_type": "code",
"execution_count": 31,
"id": "abd4801e-5f4c-45d8-96e8-96b2dd89d8e9",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"0.0033333333333333335"
]
},
"execution_count": 31,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"bonf = bonferroni(alpha=0.05, k=data.major.nunique())\n",
"bonf"
]
},
{
"cell_type": "code",
"execution_count": 32,
"id": "f98bbd3c-4d43-4c00-8920-3e066de8533d",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"MaSt vs. PoS\n",
"p-value: 5.2857708581268477e-11\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"MaSt vs. Bio\n",
"p-value: 0.23955813674375898\n",
"Reject H0 (p-value <= 0.00333): False\n",
"\n",
"MaSt vs. EnS\n",
"p-value: 2.8739133454494936e-10\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"MaSt vs. EcFi\n",
"p-value: 0.6139629263411384\n",
"Reject H0 (p-value <= 0.00333): False\n",
"\n",
"MaSt vs. SoS\n",
"p-value: 1.0518783466253219e-10\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"PoS vs. Bio\n",
"p-value: 4.8406849116995696e-15\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"PoS vs. EnS\n",
"p-value: 0.120165093300726\n",
"Reject H0 (p-value <= 0.00333): False\n",
"\n",
"PoS vs. EcFi\n",
"p-value: 2.649042688427034e-12\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"PoS vs. SoS\n",
"p-value: 0.23097741142110123\n",
"Reject H0 (p-value <= 0.00333): False\n",
"\n",
"Bio vs. EnS\n",
"p-value: 1.790220430001192e-14\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"Bio vs. EcFi\n",
"p-value: 0.5127682352930607\n",
"Reject H0 (p-value <= 0.00333): False\n",
"\n",
"Bio vs. SoS\n",
"p-value: 6.474671293237731e-14\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"EnS vs. EcFi\n",
"p-value: 8.151876693739742e-12\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n",
"EnS vs. SoS\n",
"p-value: 0.00557583127097583\n",
"Reject H0 (p-value <= 0.00333): False\n",
"\n",
"EcFi vs. SoS\n",
"p-value: 7.1456783247184506e-12\n",
"Reject H0 (p-value <= 0.00333): True\n",
"\n"
]
}
],
"source": [
"for major1, major2 in major:\n",
" _, p_value = ttest_ind(\n",
" data.loc[data[\"major\"] == major1, \"salary\"],\n",
" data.loc[data[\"major\"] == major2, \"salary\"],\n",
" )\n",
" print(f\"{major1} vs. {major2}\")\n",
" print(f\"p-value: {p_value}\")\n",
" print(f\"Reject H0 (p-value <= {np.round(bonf,5)}): {p_value <= bonf}\\n\")"
]
},
{
"cell_type": "markdown",
"id": "3ea2a00d-fc0e-45c9-bc68-e966f8a73924",
"metadata": {},
"source": [
"Der paarweise $t$-Test mit der Bonferroni-Anpassung zeigt, dass bei einem Signifikanzniveau von $5 \\%$ die Mittelwerte für $6$ Kombinationen nicht statistisch signifikant unterschiedlich sind. Bei diesen Kombinationen handelt es sich um Bio-EcFi, Bio-MaSt, EcFi-MaSt, EnS-PoS, PoS-SoS, EnS-SoS mit $p$-Werten von $0,5128$, $0,2396$, $0,61397$, $0,1202$, $0,230978$ bzw. $0,00558$. (beim Bonferroni-Verfahren wird $\\alpha$ durch die Anzahl der Tests geteilt bzw. der $p$-Wert mit dieser Anzahl multipliziert und auf $1$ gekürzt, wenn das Ergebnis über $1$ liegt und somit keine Wahrscheinlichkeit darstellt). Für die verbleibenden $9$ Kombinationen haben wir $H_0$ abgelehnt, d. h. für $9$ Kombinationen sind die Mittelwerte bei einem Signifikanzniveau von $\\approx 0,0067 \\%$ unterschiedlich!"
]
},
{
"cell_type": "markdown",
"id": "411b92a8-cfd6-45f1-8cb0-dd287c839019",
"metadata": {},
"source": [
"### Tukey-Mehrfach-Vergleichsmethode"
]
},
{
"cell_type": "markdown",
"id": "23559814-3cd2-488c-a812-cdf574da18ec",
"metadata": {},
"source": [
"Der Tukey-Test, auch bekannt als **Tukey's HSD-Test (honest significant difference)**, basiert auf der studentized range-Verteilung, die manchmal auch als $q$-Verteilung bezeichnet wird. Die **$q$-Verteilung** ist eine rechtsschiefe Wahrscheinlichkeitsdichtekurve mit zwei Parametern, $\\kappa$ und $\\nu$, die ihre Form beschreiben. Diese Parameter sind gegeben durch"
]
},
{
"cell_type": "markdown",
"id": "e792fed9-141f-47b3-a7d5-f986a2afde63",
"metadata": {},
"source": [
"$$\\kappa = k$$"
]
},
{
"cell_type": "markdown",
"id": "28d642fc-a5da-4e6f-b9d2-ac8fd002e6b9",
"metadata": {},
"source": [
"und"
]
},
{
"cell_type": "markdown",
"id": "8446e77b-1070-4b2e-8455-14715b06379d",
"metadata": {},
"source": [
"$$\\nu = n-k\\text{,}$$"
]
},
{
"cell_type": "markdown",
"id": "cc039e9f-cbed-41c5-b162-9e8a3722bd8f",
"metadata": {},
"source": [
"wobei $n$ die Gesamtzahl der Beobachtungen ist und $k$ die Anzahl der Gruppen/Klassen.\n",
"\n",
"Der Tukey-Test vergleicht die Mittelwerte jeder Gruppe mit den Mittelwerten jeder anderen Gruppe. Er liefert das Konfidenzintervall für jedes"
]
},
{
"cell_type": "markdown",
"id": "570b5c27-1f44-49dd-930d-12f405cf2c45",
"metadata": {},
"source": [
"$$\\mu_i-\\mu_j\\text{.}$$"
]
},
{
"cell_type": "markdown",
"id": "a48d3b79-73c5-4089-826f-de5a2a2e77ab",
"metadata": {},
"source": [
"Wenn das Konfidenzintervall für einen paarweisen Vergleich $0$ einschließt, wird $H_0$ nicht verworfen, es wird nicht angenommen, dass sie signifikant unterschiedlich sind. Alle anderen Paare, für die das Konfidenzintervall nicht $0$ einschließt, sind signifikant unterschiedlich, $H_0$ wird also verworfen."
]
},
{
"cell_type": "markdown",
"id": "c1e611f6-7493-4396-9233-e1c0343c673f",
"metadata": {},
"source": [
"### Tukey's Test in Python"
]
},
{
"cell_type": "markdown",
"id": "b2f8b5db-de1c-4ad0-8135-6c5150333066",
"metadata": {},
"source": [
"In Python werden Tukey's HSD Tests durch die `pairwise_tukeyhsd()` Funktion berechnet. Die `pairwise_tukeyhsd()`-Funktion erwartet als Eingabe `endog`, die zu vergleichende Größe und `groups` die Aufteilung der Gruppen. Um die Breite der Konfidenzintervalle festzulegen, geben wir der Funktion das Konfidenzniveau mit dem Argument `alpha` an."
]
},
{
"cell_type": "code",
"execution_count": 33,
"id": "50a8c5c2-9357-4a97-86d5-f51ba60c74b1",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"
Multiple Comparison of Means - Tukey HSD, FWER=0.05
\n",
"
\n",
"
group1
group2
meandiff
p-adj
lower
upper
reject
\n",
"
\n",
"
\n",
"
Bio
EcFi
-1012.3086
0.983
-5228.585
3203.9678
False
\n",
"
\n",
"
\n",
"
Bio
EnS
-11777.6601
-0.0
-15810.772
-7744.5482
True
\n",
"
\n",
"
\n",
"
Bio
MaSt
-1846.3679
0.8039
-6036.7581
2344.0223
False
\n",
"
\n",
"
\n",
"
Bio
PoS
-13913.133
-0.0
-18078.5879
-9747.6782
True
\n",
"
\n",
"
\n",
"
Bio
SoS
-16091.4853
-0.0
-21100.7005
-11082.2702
True
\n",
"
\n",
"
\n",
"
EcFi
EnS
-10765.3515
0.0
-15067.6403
-6463.0628
True
\n",
"
\n",
"
\n",
"
EcFi
MaSt
-834.0593
0.9946
-5284.1231
3616.0045
False
\n",
"
\n",
"
\n",
"
EcFi
PoS
-12900.8245
-0.0
-17327.4159
-8474.233
True
\n",
"
\n",
"
\n",
"
EcFi
SoS
-15079.1768
-0.0
-20307.5545
-9850.799
True
\n",
"
\n",
"
\n",
"
EnS
MaSt
9931.2922
0.0
5654.369
14208.2155
True
\n",
"
\n",
"
\n",
"
EnS
PoS
-2135.4729
0.7016
-6387.9683
2117.0224
False
\n",
"
\n",
"
\n",
"
EnS
SoS
-4313.8252
0.1475
-9395.6496
767.9991
False
\n",
"
\n",
"
\n",
"
MaSt
PoS
-12066.7651
0.0
-16468.7074
-7664.8229
True
\n",
"
\n",
"
\n",
"
MaSt
SoS
-14245.1174
0.0
-19452.6425
-9037.5924
True
\n",
"
\n",
"
\n",
"
PoS
SoS
-2178.3523
0.834
-7365.8335
3009.1289
False
\n",
"
\n",
"
"
],
"text/plain": [
""
]
},
"execution_count": 33,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Tukey's test ausführen\n",
"tukey = pairwise_tukeyhsd(endog=data[\"salary\"], groups=data[\"major\"], alpha=0.05)\n",
"tukey.summary()"
]
},
{
"cell_type": "markdown",
"id": "bbf0cd38-481e-443b-bbb9-cb34cf5beedb",
"metadata": {},
"source": [
"Bitte beachten Sie, dass wir im Fall ohne $p$-Wert-Anpassung die Nullhypothese für $10$ Kombinationen abgelehnt haben. Beim paarweisen $t$-Test mit der Tukey-Anpassung wurde die Nullhypothese für $9$ Kombinationen verworfen."
]
},
{
"cell_type": "markdown",
"id": "008436ff-eaff-4955-8006-d960ec8efb65",
"metadata": {},
"source": [
"Die Tabelle zeigt die Differenz zwischen den einzelnen Paaren, die $95 \\%$-Konfidenzintervalle und den $p$-Wert der paarweisen Vergleiche. Schauen Sie sich die Tabelle genau an, und Sie werden sehen, dass für alle $6$ Vergleiche, bei denen das Konfidenzintervall $0$ einschließt, der $p$-Wert höher ist als das Signifikanzniveau $\\alpha$. Wenn $p \\gt \\alpha$ ist, verwerfen wir $H_0$ nicht, d. h. es gibt keinen statistisch signifikanten Unterschied zwischen den Mittelwerten dieser beiden Gruppen. Für alle Paare, bei denen $p \\le \\alpha$ ist, verwerfen wir dagegen $H_0$ und stellen fest, dass ein statistisch signifikanter Unterschied zwischen den Mittelwerten dieser Paare besteht. Die `tukey.plot_simultaneous()`-Funktion bietet eine nette Plot-Funktion, die die Konfidenzintervalle für jedes Paar visualisiert."
]
},
{
"cell_type": "code",
"execution_count": 34,
"id": "531880e9-25b2-42a5-9d11-949ccdd06b1e",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAmgAAAF8CAYAAAB7QEdZAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMSwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/YYfK9AAAACXBIWXMAAAsTAAALEwEAmpwYAAAwpElEQVR4nO3deZhcVZ3/8fc3LNFWEBSEQaUbFUVxGTVKcEYMIIgMuAAu2DOKoo066E8WBXXGDVsclVFcsUFBZnpURFFBRdaIgEED7iCikkZQdoJAIGzf3x/nNlQqvaa7U6eT9+t57lNd556691TdW1WfOufe25GZSJIkqR5zOt0ASZIkrciAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgKY1RkREp9sguR9Kmg4GNM2IiFgYERkRvxmjzruaOksmuewFzeN2a+4/NCKOBl7bUueEiLh2KsudDhGxZ0ScGhF/jYhlEXF5RBwVEZtP1zpqEBH7Na/dNp1uy0Q1+0i2TbdHxC8i4q2ruMy9gBOnuakdExH/0rwul40yv/29OO5+MMrrfm9E3BAR34qIp6xCOzMiPjbZx01yHYMRcVjLcx5v2m+Cy532z50x1vXpiPjUTK9H02PdTjdAa7T7gadFxLaZ+bsR5r92hLJV0Q28A3hDS9kRwGemafmT1vSiHAe8Hvgf4EBgKfBM4F3AqyNiQWb+sVNtnGbfB7YHlnS4HZN1M/Avzd9zgA2B3YEvRERk5hcmubx3A3dNY/s67U3Ar4FnRMROmXnONC239XUHWAfYCvgIcH5EPCUzr5/E8rYHrpmmtq0kIl4FPI/yGfOQZn3DuoGvU9r+/ZbyP81Ue6bg/cAfIuLUadyWmiEGNM2kX1M+dF8D/GfrjOYX9j8CvwAeOd0rzsxOfzgeDLwReFVmfrOl/JyI+B5wCfAlYOdONG66ZeYNwA2dbscquCczF7WVnR4RzwTeCkw2oK0xImIzYA/Kfvxe4G3AdH2pj/S6XxARQ8B5wH7Axye6sBGWNW0iYn3gKOADmXk3cDewqGX+0ubPP81kO6ZDZv69GW04OiKekV6pvmoOcWomLQdOAV49wrzXAouBP7QWNkOji9rKepohgLe0LyQiFgDDwy/HDw+Xtg9xNsv9ekQcHBHXNENZZzVfxKOKiC0i4qvN8MudEXFRROw6zmPWpfSknN4WzoAHwuMhwFkRsV7L4/Zuln9bs74TI2KLlvnDw0fbRcSFTXuWNOWbR8Q3m+f114joH+H1+9eIODki7oiIa5vhjoe0tX2/pg23R8TyiLgsIt4+wrIOiojfRMTSiDi0fWgrIuZGxNERcVWznD9HxJHNl93wsuZERF9E/DLK8O81EfG5iHhES50PNs9xl4i4OCLuioihiHh3W7t3jIjzI+LvzXRWRDx/rO00jluAFb68IuLJEfHt5jnfERFnR8S8lvlLgO2AFzavxTua29ah962asm+2LfvSiDiu+Tsi4p0R8fvmtRuKiCNa95WJtKepkxHx7xHx+WafWhYRp0fEkyfwGuzX3P4Q+Crwstb9cYYsbm57hguiHCawMCJujYi7m33pQxGxTkudB4Y4x9hHIyI+EBF/bF7XqyPii6372yj2AzYBTp7sk4lJfp418+dEGU69MyJe3FK+Wzz4vr8pyufD5s28dSLiLxFx6gjL+35E/KylaBDYFthzss9Hq5cBTTPta8DWEfHstvJ9KR8UU3UJpYcOyhDDK8ao+2LgnZTw9Hpgc+C8iHjcSJUj4pHABcALgUOBfYC/AD+IiN3HWM884NHA90arkJnHZeaRmXlPs673Ur4Afg28Ejic0ru2KCI2bXv4tyjDpntShhSPAxZSwu5ewNnAeyNin7bHfRaI5nl8CngL8H8tz/cA4CvAmc2y92mW/5koQbjVxyg9gK8DThvhKR4N/BtlSGVX4BjK0O4HWuocQ+mhOgN4GaXH5F+Bc2PF4Pho4MvAsZThxwuB/4qIPZt2P75pwzXN898XeBjwo2Ybjiki1m2ZNoqIXuAltAyRR8QTKL0mTwD6gF7K5+d5EfGsptorgN9ReoW3B04AhoBdWlY3/PeCiHIyQUR0A0/hwf3laOCTlB83ewCfp+x/DxzbNsH2DOsHHkV5bQ8AnkvLdh/DG4FTM/PGZt3RrGsmDR9/9icooQT4LvB7YG/gpZT35Psp+9dY2vfRwyg9gUdT9skjKK/JeL2krwN+mJl/n+RzmbRmnziOsh+/LDN/1JTvA/wA+CvldTiY8rn044jYIDPvo7x3d4uIR7csbwvK596Xh8sy8yrgIsZ//dRpmenkNO0TJTAsohxbcj3w8ZZ5zwXupQSkrwNL2h/XtqweSm/GW5r7C5r7uzX3t2nu79fymBOAa9uWex/w1JayxwB3Ap8eZbkfpgxnPKmtPWcDvx/jub+ydTkTeK02btrxP23l2zav03819/drlntQS50XNmX/01K2HuU4qE+1vX4/bVv+IU35Pzb3PzH8mJY6j2zqfKhtWSe31Rtu2zbN/cuAM9rqHAi8vvn7KU39I9rqvLgpf2tz/4PN/T1b6sxtXq9jm/uvbuo8v6XOEyiBr3uM1/2E5nEjTd8D5rbUPZFy3NSj2l7nyyk9pcNli4CFLfc/B1zdcv8bwM+bdTytKXsbsAx4KPBEyrGbH2pr6+uax8yfZHsSWNy2rPc35Y8Z47UZ3q/+paXsVEoIXrelbAErvmdW2A/GeN2vpRxiMzw9AngBJdzeAmzWso9+re3xcyjHc3617Xl+bJx99IeUoDenpayXlvfTCG19OHAPcPgYdVb6/GmZt5BJfJ4BX6Ts27u01A9K0P9x23Ke0No2yrFw97Hi58N7gDuADdseezRwy2jPyamOyR40zagsv+y+CbxquMeAMrx5TmZO6izLafCzzLy0pW3XAD+lfBmNZBfgUuDPrb0slF/0T256PkZyb3O7zijz282nHHi8Qo9ilhMrLgZ2bKt/Qcvf1zW3DwyjZOmVu5US/Fqd0HZ/eJjthc3j3pWZB0XEhhExLyJeQ/mAB1i/7bGjnp3bOBvYJcqw47ujnCjyucz8ajN/QXPb/px/RAn0oz7nzFxOOd7tYU3RTykB57SI+FKUMymvy8x3Z+bQOO28ifKDYXjakdLDugOlB254G+5COTbq1pb9ICk9MztGy9Btm1OBx0TEU5v9fydKz9xtLc9xd+CszLyT0msawHfb9rlTm/UND3lNpj0XtrXp6ub2YYzuTZR9a1HTq7gRcBKwBfDyMR43UZtRwsXwtJTyfNYBXp6Z1wFk5lGZuW9EdEXEP0bE3pQfTuux8j7Zrn0fPRt4MnBJM9T5XOD/MvNTYyxjS0qAvHJSz27VfJjSq318Zp7ZUv6kph3fadsnhoBf0ewTzb5+JmV0YNh+lKDa3vv3Z2CjiGj/jFBFDGhaHb5G+XU3PyLmAK9iYkMs0+3qEcquZ/STFDahnHV5T9t0dDP/MaM8bklzu9VoDWm+9DZo7g6vf6TA+jdgo7aykYZa7mi7nyPUaX/+w2fJPbJp01YRcTrly/KnlBM7ho/Pab+213WM7WBKuNsY+C/gtxHxu3jw+L3JPudlbffvp/n8yjJkswNwLiX8fwu4PiKOjYiHjtPOezNzccu0MDM/AbydElxf1tTbpPm7fV84mBIUNhll+QuB2ymB6h+bemcCP6EMc86lBLXvtqwHSjBvXc/NlG3wmJZ6E23PSK8djPL53xyTtTclRN1I6dG6hQeHWN82ynOdjPZg/Axg08x8Rmb+uKUtj4yIb1B+cFxMGbbcktKzPd715tr30aMoJ37cSxlq/xlwZTOkPZqNmtv299dMeBpwFrB/RGzbUj68Lf+blbf3c1jxc+g44JkR8cyI+CdKuPsyKxt+PhtNW+s17TyLU6vDBcBVlKGoh1C+nL89St1k5Z6nDUaquAraj+WC8iU02un8Syk9U28fZf7lo5T/knKsyB6UIa6RHA4c2nwQ39yUjXRttC0oX5LTof35b9bcXt/07pxG+dL+Z8qw2N0R0QW8ebIrynK228eAjzXHwexGOf7nW1HODmx9zkvbHr4FpedyMuu7GNg7yoH02/Hg8VZXUY41mqxLmtutm9ullB6eI0epP+I2yszlEXEG5ZindYHLMvPaiDib8nrsRBnaHD6Ob2lzuxslxIy2nlVqzwT9a9Om11LCcqv9gNdHuQzGiNdGm6B7M3Px+NUYpPxI2gM4r+llJCImcwkOADIzKcc9HhMRj6KE5ncDJ0bEBZm5ZISHDb+OG012fcOrZeKfZ2+jHHd4GfCViHh+MwKxtJn/Psrxmu2Wt/z9Xcrn2Wua9VyRmeeN8JjhH0jT9dmiGWAPmmZc88H4Dcqv8n0pBx6PdsDt3ylDQq2/jncYZxX3TbAp28WKZ0U+lnIw90gfelB6P7YG/tzay0Lp8XgfD/ZErKB5vkcBL26GZFYQ5Qy6AyjHplxOCYF3UY6Haa33VODZwI/bl7GK2k+geFVzeyYlvD0VOCEzL2wCFpThN5jEZ0WUs9AuiYijADLzr5n5FUpYfTjly2FhU739Ob+4acuEn3NEvC7KGYqbZuY9mXl+Zr6F8sU22jD0eIavc3VFc7uQckzgr9v2hX0pAf6ept5I++KplH14Vx68TMXZlAP33wNcNDykx4Ovy+Zt67mTEni3aak3kfasiv2B32Tm15oexQcmynGKUHqiVocXAt/NzB+1hLN5lH1kUt9fUS4Y/U2AzLwpM79OGVacAzx2lIddTelxG/FEogmYzOfZtZl5K+Wajs8DDmrKL6P0Bm7dtq1/S+kJfOBMz+bwhhMpJ/i8jHLiwEgeB9ycmbet2tPS6mAPmlaXr1HO4tuPchD9aL5HOVPr8xFxEmVY6GDGDmG3NLc7R8RlmXnRKPXmUo4r+iDlQ/lDzWNHOwblKB48q/DjlF6xXSm/uo/PzLGGPT5D+XL5RkR8hdJDcicPfvAuowknmXlLlMtiHBERd1HO5tyC8uVx3Rjtm6w9IuJLlCHA51A+3I/LzD8ARMSVwFua2xsoB20fRukFGOt4pRVk5v0RcT7w9oi4gRJAH0vZjhdk5tXN+r4MvKc5XuosSvj4EOXYoclcjf/HlG37nWY73U4Jn4+gHDc1lvUiYn7L/XUoZ+F+iHJG7fBlCz5IOfPtjIj4LCX8vZrSu/ifTSiHsj89OyJ2An6RmbdQLl76Zcq+86Wm3q958DV+7/DKM/N3EfFV4HNRzi6+kPJl+iHKcVfDPXsTbc+kRDnb+lmUHt6VNO37OfC6iHjPSHWm2SLK8asXUY4Dezblx9Gk9snGucBRzT7yQ8oPhQ82y/35SA/IzGURcR5lO43WWzmWSX+eZebJUS6X8eGI+G5mXhERh1N61e6hjD6s3yzn+ZShz1bHUc76vY9yeZSRvIDyGqhmq+NMBKe1b2Lks5d+TxnaWr+lrP0sznUol8v4K6VX6TzKF8ZdjHIWZ1N2NOWL+RbKh9cJrHwW5yLKF8/1lGNaTgZ6WuqMtNweyjDLjZSA9ftmGetM4DVYh/KFeX6zzmWUX8OfAB49Qv03UcLJckowOwHYomX+frSdIccoZ5BRju06oeU5JOXsveGguITyRbdOy2OeRunZ+XuznS6i9Mh8n9Kj0rqst7Stb4W2NdvgI8Afm213HeWLY5O21+cwSi/V3ZRLmBwNPKKlzgeb5T6kbX1LgK+33N+e0hN4U/P8FgP7jLN9TmDlszfvpnxhf4FyTFRr/WdQvnCXNtvyV8ABbXVeRBlWXQ68tqX8QkqP6yNbyr7RrHPbEfabwylD6HdThhkHgcevQnseOLtxrP2oZd4XmnZuOcbr9tbm8X1M4SzOCX6ObAl8h/K+/jvl8IEDKWc73kTzWdL6PBllH23mHUwZPl9G2cdPouUzYJQ29FE+WzYYZf5YZ3Gu6ufZ4ygnkpwHRFP2Cspn2J3N63EOsOMobboc+N4o8x5HCW97jvW8nTo/DW94aY0WEQspX/Lzx6u7pomIHkroeGtmHtPh5kizSnMixxWUAFj9f5aIiCdRfkjukZk/GGH+RyjH9D0rDQBV8xg0SZJGkeWyLu8BDmnCWpUi4gXN4RunUobQVxrCbC6rcQDwLsNZ/QxokiSNITMHKcepHdzptoxhY8qFfe8C9h0lgH2IcuHfM0eYp8o4xClJklQZe9AkSZIqY0CTJEmqzBpxHbSI6KOcCs3DHvaw52yzzTbjPEKSJKnzLr744hszc6X/dLPGHYM2b968XLx4Iv9BRJIkqbMi4uLMnNde7hCnJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVMaBJkiRVxoAmSZJUGQOaJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVMaBJkiRVxoAmSZJUGQOaJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVMaBJkiRVxoAmSZJUGQOaJElSZQxokiRJlTGgSZIkVWZaAlpE7BwRP4qIWyLiroj4fUT0R8QGk1zOhhFxZERcERHLI+KmiPhBROw4He2UJEmaDaYc0CJid+AM4C/AvwG7A8cCBwA/ioh1JricAE4HXgN8Angx8CbgXuCsiNhjqm2VJEmaDaajB+1dwBmZ+abMPC0zz8nMo4DXA9tTgtZE7NDUf01mDmTmwsw8BXg5sBh4/zS0VZUaHBykp6eHOXPm0NPTw+DgYKebJElSx0xHQHv0KMs5A3gfcDVARPRExEkRcV1E3BYR342IrduWs1KbMvP+ZjnHT0NbVaHBwUH6+voYGhoiMxkaGqKvr8+QJklaa0VmTm0BEZ8EDgFOAwaBhZl5bVudxwKXANcAHwGC0iO2GfCszPxrRGwG/Am4HTgG+CFwcWbeO5n2zJs3LxcvXjyl59QJCxYs6HQTOmbRokUsX758pfK5c+cyf/78DrSoDgsXLux0EyRJMywiLs7Mee3l09GDNty7tTvwNeBvEXFZRBwRERs3dQ4CHgrskpnfysyTgZ2askMAMvM6YE9gOfABYBGwtOlp23WcJ9cXEYsjYvENN9wwDU9Jq9NI4WysckmS1nRT7kF7YEGll2xPYBdgAbAx8Ffgn4GTgL9l5kvbHnMK8LjW5NicVLAj8BJKiHsmpcftyMx873jtmK09aGuznp4ehoaGVirv7u5myZIlq79BkiStJjPZgwZAZl6dmV/MzL0ox5O9EdgU+CAlrF03wsOuAzZsW859mXlWZh6Smc8CHg+cCxweEU+YrvaqHv39/XR1da1Q1tXVRX9/f4daJElSZ00poEXE/Oag/+1ayzPz3sw8Hvg+8BTgZsrxZu02B25qlnVS06O2gsxcQhkiDeDJU2mv6tTb28vAwADd3d1EBN3d3QwMDNDb29vppkmS1BFT7UH7A7AB8I72Gc1Q5eOB3wLnAztGxCYt8zcBdgYuaIquBP4lIrYdYT1bA/cDl02xvapUb28vS5Ys4f7772fJkiWGM0nSWm3dqTw4M2+OiPcB/90ErhMol9XYgnKh2scCewF3A/sBZ0bEEZTesP9oyj/dLO4TwN7ATyLi08CFlFD2z8ChwGcz88qptFeSJGk2mFJAA8jMT0XEFcCBwGeAjYAbKddB2384VEXEC4CPAydS/jvAQuDVmXl1s5wbm6HS9wD7Aoc1q7iUcqbncVNtqyRJ0mwwbWdx1sKzOCVJ0mwx42dxSpIkaXoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkykw5oEXEwojItmlZRPwqIg6c5LLmRsThEfHbiLgzIpY2y997qu2UJEmaLdadpuVcABzacv/hwH7AZyOCzPzcBJfzVWBn4KPAr4CHAa8ATo6It2XmF6epvZIkSdWaroC2NDMXtRZExDnAPOBAYNyAFhE9wKuB12TmN1pmnRoRGwAfAgxokiRpjTdjx6Bl5v2UXrBugIjYJCKOjYirmyHQcyJiXstDNh2jTR8HPh4R681Ue6WpGBwcpKenhzlz5tDT08Pg4GCnmyRJmsWmqwdtNFsDV0bEw4ELgfWAw4FbgYOB8yJiu8z8DfBr4BrgmIh4NnAacFFm3pWZPwd+PsNtlVbJ4OAgfX19LFu2DIChoSH6+voA6O3t7WTTJEmzVGTm1BYQsRC4A3jZcBHwD8BbKWHsIOA+4NPA0zPz0uZx6wN/AC7OzL2bsmcCg8C2zbKWAz8Bjmsb9hzVvHnzcvHixVN6TuqcBQsWdLoJk7Zo0SKWL1++UvncuXOZP39+B1o0NQsXLux0EyRprRERF2fmvPby6epB2x24p63sTuBTlOPPvgb8bjicAWTm3RFxCvBvLWW/ioinA9s3y9wZ2BF4UUS8LDNfO9LKI6IP6APYcsstp+kpSRMzUjgbq1ySpPFMVw/aOpSeMoAEbgf+nJn3NHXOAjIzd2l77OHAhzNz/TGW/2jgs8CrgJ0y89yx2mMPmla3np4ehoaGVirv7u5myZIlq79BkqRZY7QetOk6SeDWzFzcTBdn5uXD4axxM7DZCI/bHLipaeBREbFSssrM62l6x4CnTFN7pWnT399PV1fXCmVdXV309/d3qEWSpNludf0ngfOBbSPigYDVHIP2Cso11AD+CDwnInYd4fFbN7e/ndFWSqugt7eXgYEBuru7iQi6u7sZGBjwBAFJ0iqbriHO2zNzjzHqbEC55EYA/0E5i/Mg4J+A7TPzFxHxEGAh8Azg88DZlOPYngO8G1iUmS8frz0OcUqSpNlipk8SGFNm3hYROwCfpISvdYGfAjtk5i+aOndFxE6U/0iwF/CWpt4fgf+mnHAgSZK0xptyD1pt7EGTJEmzxUyfJCBJkqRpYkCTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkiozKwJaRESn2yBJkrS6jBvQImJJRGREfHKU+d3N/IyITSa64oh4YkScGBF/i4i7I+LqiDghIh7fVu/NwBETXa4kSdJsN9EetAT2GmXePpNdaUQ8Fvgp0A38P2AX4L3Ac4CLImLLlurvAzaa7DokSZJmq4kGtAuBrSLiWSPMeyXw60mud39gHeDFmXlSZv44M08EdgYeChw4yeVJklS9wcFBenp6mDNnDj09PQwODna6SarURAPaL4E/AXu3FjY9Xc8FTm4pi4j4fxHxm4i4KyJui4gzI+LpLQ999Ejrz8zrgXcAP26WtYTSy/bvEZETflaSJFVmcHCQvr4+hoaGyEyGhobo6+szpGlEkTl27mlC0mnAMmCPzHxqy7yDKUOcA8DxwKbAfsBHgMMowW4roB+4NjOf0zxuD+BUSs/bAHBWZl4+wrqfBfwAOB84KjMXjfeE5s2bl4sXLx6vmiRpllqwYEGnm7BKFi1axPLly1cqnzt3LvPnz+9Ai1bdwoULO92ENUZEXJyZ89rLJ3MW58nAUyJim5ayVwLfbKv3OOCIzDy6Gbo8Afgk8OyIeDhAZp4GvBN4AvA54PfNyQLHtS4/M38BLAeuGyucRURfRCyOiMU33HDDJJ6SJEmrx0jhbKxyrd0m3IOWmQdGxBAwkJn9zYH+Q0AP5dix44FNM/PG5nGbAts0077AjsAmmXlTy7I3AHYHXgzsRBnOvBvYuwlxK6x/Ik/IHjRJUo16enoYGhpaqby7u5slS5as/gapCtPRgwbwbR48m3Mf4GeZ+Ze2FW0TET8BrgdOB95ACV0AK1zPLDNvy8xvZOYbM7MHeEHzuM9Psl2SJFWtv7+frq6uFcq6urro7+/vUItUs8kGtG9Rhip7KAHtpBGWdyqwHvB0YIPMfD7wveEKEbFORAxFxKHtC8/M8ynDoVtGRFf7fEmSZqve3l4GBgbo7u4mIuju7mZgYIDe3t5ON00VWneS9S8E/gYcAMynDF22CuCJwJGZ+duW8t2G52fmfRFxLfDmiDgmM29vW8bWwJWZuay5f98k2yhJUpV6e3sNZJqQSQW0zLw/Ik4BDgF+3j68SQlTVwHvjIjrmvuvB/Zo5g/3ih0EnAX8PCI+A1wKPBx4OfBGyskHw5YCz4mIHYCf5HgHzUmSJM1yq/K/OL9FGcJsP3tz2F7A7ZThz+MpoexFzbztATLzQsr10y6m/AeBM4D/pZwBunNmfrtleR+l9MqdDjxmFdorSZI0q4x7Fuds41mckiRptpiuszglSZI0wwxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVMaBJkiRVxoAmSZJUGQOaJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVMaBJkiRVxoAmSZJUGQOaJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVmXJAi4iFEZFjTIdPYlkbRsSREXFFRCyPiJsi4gcRseNU2ylJkjRbrDtNy7kAOHSUeVdNZAEREcDpwD8ARwJ/ADYG3gCcFREvy8zTpqGtkiRJVZuuIc6lmblolOmvE1zGDsD2wGsycyAzF2bmKcDLgcXA+6eprZLaDA4O0tPTw5w5c+jp6WFwcLDTTZKktdpqOQYtIvaLiBsjYueI+GUzfHlpRLy0pdqjR2pTZt4PvA84fnW0VVrbDA4O0tfXx9DQEJnJ0NAQfX19hjRJ6qDIzKktIGIhcAfwspHmZ+a9EbEf8CXgWuAjwBLgP4HnAo/JzJsjYjPgT8DtwDHAD4GLM/PeybRn3rx5uXjx4lV6LtJ0WbBgQaebMGGLFi1i+fLlK5XPnTuX+fPnd6BFk7Nw4cJON0GSVllEXJyZ89rLp6sHbXfgnpGmiHhIU2d94F2ZeWxmngkcCDwE2BEgM68D9gSWAx8AFgFLI+K7EbHrWCuPiL6IWBwRi2+44YZpekrS2mGkcDZWuSRp5k3XSQLnAweNMq/1U35Ry99XN7cPGy7IzHMj4vGU0PYSYCdKaHtpRByZme8daQWZOQAMQOlBW6VnIE2j2dSr09PTw9DQ0Erl3d3ds+p5SNKaZLp60G7NzMWjTK2BaVnL3/eP1IbMvC8zz8rMQzLzWcDjgXOBwyPiCdPUXkmN/v5+urq6Vijr6uqiv7+/Qy2SJFVzodqIOCkiTmkvz8wllN65AJ68utslrel6e3sZGBigu7ubiKC7u5uBgQF6e3s73TRJWmtN1xDndLgSOCgits3M37XN25rS43bZ6m+WtObr7e01kElSRaYroG0UEaOd7nXrBJfxCWBv4CcR8WngQkoo+2fKRXA/m5lXTrWhkiRJtZuugPZPwE9HmXc28L/jLSAzb4yI7YD3APsChzWzLgUOAY6bhnZKkiRVb8rXQauN10GTJEmzxUxfB02SJEnTxIAmSZJUGQOaJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVMaBJkiRVxoAmSZJUGQOaJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFXGgCZJklQZA5okSVJlDGiSJEmVMaBJkiRVxoAmSZJUGQOaJElSZQxokiRJlTGgSZIkVcaAJkmSVBkDmiRJUmUMaJIkSZUxoEmSJFVmlQNaRCyMiBxjOnwCy+gZZxkfa1nXaavaVkmSpNlk3Sk+/gLg0FHmXTWJ5bwXOHeE8mua27cB901ieZIkSbPWVAPa0sxcNA3tuGKs5WTmpdOwDkmSpFlhxo9Bi4juiDgpIm6OiJsi4lsRseUkl+EQpyRJjcHBQXp6epgzZw49PT0MDg52ukmaZlPtQYuIGHEZmXlvRGwInA/cQRmmvAP4GPDDiHhGS/U5Iyzn/sy8f4rtkyRpjTI4OEhfXx/Lli0DYGhoiL6+PgB6e3s72TRNo6kGtN2Be0aaEREPBd4AbA48KTOvbMr/ApwCbEMJbADfGGER3wf2mGL7JEka0YIFCzrdhFWyaNEili9fvkLZsmXL2H///Tn22GM71KpVt3Dhwk43oUpTDWjnAweNMm858Hzgd8PhDCAzfwlsBeUszqb4MOCctscvnWgjIqIP6APYcstJjZ5KkjSrtIez8co1O001oN2amYtHmxkRjwSun8By/jzWcsaTmQPAAMC8efNyVZcjSVp7zNaem56eHoaGhlYq7+7unrXPSSub6ZMEbgU2bS+MiJdExGYzvG5JktY4/f39dHV1rVDW1dVFf39/h1qkmTDTAe1C4GkR0T1cEBFPAX4APHOG1y1J0hqnt7eXgYEBuru7iQi6u7sZGBjwBIE1zFSHODeKiPmjzLsV+ArlGLXTIuKDlIvNHgH8jHLM2WOnuH5JktY6vb29BrI13FQD2j8BPx1l3tmZ+aKI2AH4b+AEyokDPwQOaS7DMcXVS5IkrXlWOaBl5oIJ1rsSeMUo85YA46a0ia5LkiRpTTDj/0lAkiRJk2NAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqzIwGtIhYEhHZMt0bEddExDERsVFTZ79m3iYz2RZJkqTZYt3VsI6TgaOav+cCWwMfBnqA3YDvA9sDS1dDWyRJkqq3OoY4r8vMRc3048w8DngP8OKI6M7MG5p5966GtkiSpFEMDg7S09PDnDlz6OnpYXBwsNNNWmt16hi0pcN/tA9xRvHmiPhNRNwZEVdExDs71E5JktYKg4OD9PX1MTQ0RGYyNDREX1+fIa1DVscQZ0TE8HrWBZ4IvA/4YWYORUR7/Y8C7wI+BpwHLAA+GRGbZOZ/rIb2SpI07RYsWNDpJoxp0aJFLF++fIWyZcuWsf/++3Psscd2qFUTs3Dhwk43YdqtjoD2tmZqdRPwb+0VI+JRwMHAJ1rC2BlRUty7IuLTmXnjCI/rA/oAttxyy+lsuyRJa4X2cDZeuWZWZObMLTxiCXAR8ImmaD2gm3IM2hbAfOAFwPHApsB2wGnAczLzkpblPBP4JbBnZp421jrnzZuXixcvntbnIUnSmq6np4ehoaGVyru7u1myZMnqb9BaIiIuzsx57eWr4xi0GzJzcTP9NDO/DuwObAwc1FZ34+b2urby4fsbzmA7JUlaa/X399PV1bVCWVdXF/39/R1q0dqtIycJZOY1wM2U49Fa3dzcbtZWvnlze9NMtkuSpLVVb28vAwMDdHd3ExF0d3czMDBAb29vp5u2Vlodx6CtJCJ6KEOaf2yb9TPgHuCVwCUt5a8G7m3mS5KkGdDb22sgq8TqCGibRcT8lvtbAO8H7gK+ADxveEZm3hgRn6GcEHAv5SzOHShndR6VmbeshvZKkiR11OoIaPs0E0BSroF2PvCmzLw0Ip7XVv/dwA3AAc3fS4BDgaNXQ1slSZI6bkbP4uwEz+KUJEmzRSfP4pQkSdIkGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyhjQJEmSKmNAkyRJqowBTZIkqTIGNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqzLqdbsB0iIg+oK+5e3tEXN7J9jQ2AW7sdCM0aW632cttNzu53WYnt9v06R6pMDJzdTdkrRARizNzXqfboclxu81ebrvZye02O7ndZp5DnJIkSZUxoEmSJFXGgDZzBjrdAK0St9vs5babndxus5PbbYZ5DJokSVJl7EGTJEmqjAGtERHrR8RHImIoIu6IiHMi4tkt8yMi3hcRV0XEsog4MyK2aVvG3Ij4VERcGxG3RcTJEbFFW52NI+KEiLgpIm6JiOMiYsO2Oo+LiFMi4taIuC4iPh4R68/sKzA7TWC7zYuIHGH6ZEsdt1sHNa//ZRFxQkuZ77fKjbLdfL9VKiIeNcq2ObmZ73uuNpnpVIZ5Pw/8HXgrsCtwGnAr0N3M/wBwJ/AO4KXAz4BrgEe0LON44CZgP2Af4Argl8A6LXXOAZYArwReD1wPnNYyfy5wGXBJs54DgTuAz3X6NapxmsB2eyNwOzC/bdrS7VbHBHwUSOCEljLfb5VPo2w332+VTsBOzfbatW3bbN3M9z1X2dTxBtQwAY8A7gYObil7KLAM+A9gA+A24LCW+RtTgsHBzf0nAPcBr26pszVwP7BXc3/H5g2yXUudnZuyZzf33wDcAzy2pc7+TdlmnX6taprG227N/U8Di8ZYhtuts9vwWZQv9Btovuh9v9U/jbTdmnLfb5VOwDuBa0eZ53uuwskhzuIOYDvKr4Nh91B2qrmUXxkPB743PDMzbwF+DOzWFO3U3J7WUucK4HctdV4EXJ+ZF7Ws51zKm6C1ziWZeXVLne9Q/uvDzqv07NZc4203gGcAvx5jGW63DomIdYGvAJ+g/FIf5vutYmNsN/D9VrOxto3vuQoZ0IDMvDczf5GZt0TEnIjYivIBlMD/Ak9qqv6p7aF/bpn3JMqvkzvGqfPHtnXfT+kOHqvOTZQd/EnoARPYbgBPBx4XEb+MiLsj4o8R8fqWxbjdOucwYH3gyLZy3291G227ge+3mj0D6IqICyPiroi4OiLeHRGB77kqrRH/i3Oa/Sfwwebv92fm5RGxF7A8M+9uq3sbMHzw44bN/Xa3AY+bQJ2JLGfDEcpVjLTdtqD8v7itgfcAtwD7AidERGbmibjdOqI5+Ph9wM6ZeXf5jnjAhvh+q9JY2833W70iYg7wVMqow6HAVcDulJD9EMrIg++5yhjQVnYKsJAylv7+5sySOym9Mu2CMv4+/PdE6tw/gTrjLUcrG2m7HUnpVv91Zv6tqXdW80XyAeBE3G6rXfNl8WXgy5n505Gq4PutOhPYbkvx/VarAPYArsrM4d6rcyPi4ZQe0X58z1XHgNYmM4fH6H8cERsA76LswHMjYr3MvKel+sMpZwzS3G4wwiLb6/zDBOqMtxy1GWW7fTgzfzRC9dOB3ZoPJ7fb6vd2oBvYozmeaVg092/F91uNxtxumbkM8P1Wocy8j3J2ZbvTgbdQetZ8z1XGY9CAiNg8It7QfLG3+gXlYPNbKOl+q7b5jwcub/6+Atg8Ih46Tp3Ht617DtAzTp1HUbp+L0cPmMB22z4i3hIRc9vmP5TSK3oHbrdOeAXwGOBmytDKPcAzgde13Pf9Vp8xt1tEPMn3W50iYouI6IuITdtmDW8Hv+MqZEArNqIcXL5PW/mulGu4fAe4C3j58IyI2Bh4IXB2U3Q2sA6wZ0udrYFt2+r8Q0Q8r2UdO1J2zNY68yLisS11Xk75MDxv8k9tjbYRY2+39YAvUo61AMpPfWAv4CeZmbjdOuEA4Llt0x8oZ4c9F/g6vt9qNN522wrfb7WaC3wJ+Ne28r0p2/Db+J6rT6ev81HLBJxM+WV4ALAL5YMmgTc08z9OuebWoZSL610EXM2KF/E7idJF+2ZGuIgf5RfKouZx+1J+ebZfxK+LcsbLbym/WP8dL+K3StuN8mHyE+A6ygU0X8KDYXue262eqXm9T2i57/ttFkyt2833W90T8H+Ua9f9P8qP2GMpx3y9tJnve66yqeMNqGVqdpr/anac5ZRhsn1a5q8LfAy4ttnJzwC2aVvGw4ABSmBYSgkPW7TVeTTwDcoZKzdSDrrdsK3OEynHBiwD/ka53tB6nX6NapwmsN0eCRzTfGDcCVwAvMDtVtfEygHN99ssmEbYbr7fKp0ow5kfBa6khOZfAK9ome97rrIpmhdLkiRJlfAYNEmSpMoY0CRJkipjQJMkSaqMAU2SJKkyBjRJkqTKGNAkSZIqY0CTJEmqjAFNkiSpMgY0SZKkyvx/W5OLBFxbaskAAAAASUVORK5CYII=",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"_ = tukey.plot_simultaneous()"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.10.2"
},
"vscode": {
"interpreter": {
"hash": "31f2aee4e71d21fbe5cf8b01ff0e069b9275f58929596ceb00d14d90e3e16cd6"
}
}
},
"nbformat": 4,
"nbformat_minor": 5
}