{ "cells": [ { "cell_type": "code", "execution_count": 1, "id": "b96078c8-43de-48e0-aa1c-393bc7825fe9", "metadata": { "tags": [ "remove-cell" ] }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "---------------------------------\n", "Working on the host: Joachims-MacBook-Pro.local\n", "\n", "---------------------------------\n", "Python version: 3.10.2 | packaged by conda-forge | (main, Feb 1 2022, 19:30:18) [Clang 11.1.0 ]\n", "\n", "---------------------------------\n", "Python interpreter: /opt/miniconda3/envs/srh/bin/python\n" ] } ], "source": [ "%matplotlib inline\n", "# Load the \"autoreload\" extension\n", "%load_ext autoreload\n", "# always reload modules\n", "%autoreload 2\n", "# black formatter for jupyter notebooks\n", "#%load_ext nb_black\n", "# black formatter for jupyter lab\n", "%load_ext lab_black\n", "\n", "%run ../../src/notebook_env.py" ] }, { "cell_type": "markdown", "id": "89fbead3-183a-4341-93ef-4ea16c793357", "metadata": {}, "source": [ "# Logistische Regression" ] }, { "cell_type": "code", "execution_count": 2, "id": "4d17e1c2-a862-4911-8096-05b771be3936", "metadata": {}, "outputs": [], "source": [ "import math\n", "import folium\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import pandas as pd\n", "import statsmodels.api as sm" ] }, { "cell_type": "markdown", "id": "3e26688b-9061-4cc6-bcd4-362e6880162c", "metadata": {}, "source": [ "Die logistische Regression, auch bekannt als **Logit-Regression** oder **Logit-Modell**, ist ein probabilistisches lineares Modell für dichotome Daten. Die Antwortvariable ist eine binäre Variable (Nominalvariable), d. h. die Variable hat zwei Kategorien oder zwei Werte: Wahr vs. Falsch oder $1$ vs. $0$ oder Erfolg vs. Misserfolg, mit den Wahrscheinlichkeiten $\\pi$ bzw. $1-\\pi$. Somit folgt die Antwortvariable einer Binomialverteilung, die wie folgt geschrieben wird" ] }, { "cell_type": "markdown", "id": "2559f9d2-ec57-4dea-93e9-7b0ca659fc79", "metadata": {}, "source": [ "$$y \\sim B(\\eta,\\pi)\\text{,} $$" ] }, { "cell_type": "markdown", "id": "c027bfec-94ba-4444-800c-52b3c012f007", "metadata": {}, "source": [ "wobei $\\eta$ der binomische Nenner ist, der für eine binäre Variable $0$ oder $1$ ist, und $\\pi$ die Erfolgswahrscheinlichkeit ist." ] }, { "cell_type": "markdown", "id": "df311389-967f-4f35-b45f-520869ef252a", "metadata": {}, "source": [ "## Die Logit-Funktion" ] }, { "cell_type": "markdown", "id": "f0ac01e6-651e-4001-9477-c0b1b54bf349", "metadata": {}, "source": [ "Das Ergebnis einer logistischen Regression ist eine Wahrscheinlichkeit ($\\pi$), also ein Wert zwischen $0$ und $1$. Außerdem ist dieses Ergebnis eine lineare Funktion bekannter Kovariaten $x_i$, was nur ein anderes Wort für die Beobachtungen in unserem Datensatz ist. " ] }, { "cell_type": "markdown", "id": "9c32ce5a-eb8d-4951-8c5c-68f5239273ec", "metadata": {}, "source": [ "$$\\pi =\\beta_0+ \\beta_1x_1+ \\beta_2x_2+ ... +\\beta_kx_k$$" ] }, { "cell_type": "markdown", "id": "86121617-85bb-430d-ac0c-e863f18c9d71", "metadata": {}, "source": [ "Für ein einfaches logistisches Regressionsmodell mit einer Vorhersagevariablen vereinfacht sich die obige Gleichung zu" ] }, { "cell_type": "markdown", "id": "7b70dcfe-8c7f-47a2-b3b8-45729627bb9d", "metadata": {}, "source": [ "$$\\pi = \\beta_0+ \\beta_1x_1\\text{.}$$" ] }, { "cell_type": "markdown", "id": "87fbc88a-bdcd-458c-9e49-3f8505373a99", "metadata": {}, "source": [ "Der rechte Term der Gleichung kann jedoch jeden reellen Wert annehmen, während der linke Term der Gleichung eine Wahrscheinlichkeit auf der Skala von $0$ bis $1$ ist. Um die Skala der Daten (rechter Term) in eine Wahrscheinlichkeit zwischen $0$ und $1$ abzubilden wenden wir eine so genannte **Verknüpfungsfunktion** an.\n", "\n", "Für das logistische Regressionsmodell ist diese Verknüpfungsfunktion die Logit-Funktion. Die Logit-Funktion bildet Wahrscheinlichkeiten aus dem Bereich ($0,1$)\n", "auf den gesamten reellen Zahlenbereich ($-\\infty,\\infty$). Sie wird geschrieben als" ] }, { "cell_type": "markdown", "id": "2259e441-d35e-4587-b0ab-6a1524a6df7d", "metadata": {}, "source": [ "$$\\eta = logit(\\pi)\\text{,}$$" ] }, { "cell_type": "markdown", "id": "34ee9051-2b02-4133-9efe-3a48efcedf59", "metadata": {}, "source": [ "wobei $\\pi$ die Wahrscheinlichkeit ist.\n", "\n", "Um den Logit zu verstehen, führen wir zunächst die Chance oder kurz **Odds** ein. Die Odds ($o$) können geschrieben werden als" ] }, { "cell_type": "markdown", "id": "08fb84fa-0b75-4be7-98f9-14c4f0d51a2c", "metadata": {}, "source": [ "$$o = \\frac{\\pi}{1-\\pi}\\text{,}$$" ] }, { "cell_type": "markdown", "id": "8e8cbacd-60ca-44b4-afda-0c56cd4188a7", "metadata": {}, "source": [ "wobei $\\pi$ die Wahrscheinlichkeit ist, dass ein Ereignis eintritt. Wenn die Wahrscheinlichkeit eines Ereignisses $0,5$ beträgt, ist die Wahrscheinlichkeit eins zu eins oder gerade $\\left(\\frac{0.5}{1-0.5}=1\\right)$. Wenn die Wahrscheinlichkeit $1/3$ beträgt, ist die Wahrscheinlichkeit eins zu zwei $\\left(\\frac{1/3}{1-1/3}=1/2\\right)$. Die Odds können jeden positiven Wert annehmen und unterliegen daher keiner Beschränkung nach oben $[0 \\ $,$ \\ \\infty[$. Daher definieren wir weiter die **Log-Odds**, die der Logarithmus der Odds ist: " ] }, { "cell_type": "markdown", "id": "5fb5f5f2-9e46-49cd-a60f-c960306a8f1c", "metadata": {}, "source": [ "$$\\eta = logit(\\pi) = log \\left( \\frac{\\pi}{1-\\pi}\\right)$$" ] }, { "cell_type": "markdown", "id": "d3fc42c5-13c4-4591-8532-be7021d47dfb", "metadata": {}, "source": [ "Diese logarithmische Funktion bewirkt, dass die Beschränkung der Untergrenze aufgehoben wird, so dass die Funktion, die Logit-Funktion, unsere Verknüpfungsfunktion, Werte im Bereich von $0$ bis $1$ in Werte über den gesamten realen Zahlenbereich $]-\\infty \\ $,$ \\ +\\infty[$ umwandelt. Wenn die Wahrscheinlichkeit $1/2$ beträgt sind die Odds gerade und der Logit ist Null. Negative Logits stehen für Wahrscheinlichkeiten unter der Hälfte und positive Logits für Wahrscheinlichkeiten über der Hälfte.\n", "\n", "Die umgekehrte Form der Logitfunktion wird auch als logistische Funktion bezeichnet, die aufgrund ihrer charakteristischen $S$-Form manchmal einfach als **Sigmoidfunktion** abgekürzt wird. Sie ermöglicht es uns, von Logits auf Wahrscheinlichkeiten umzuschalten." ] }, { "cell_type": "markdown", "id": "d4e29af1-a093-491e-91ba-29989548f305", "metadata": {}, "source": [ "$$\\pi = logit^{-1}(\\eta) = \\frac{e^{\\eta}}{1+e^{\\eta}} = \\frac{1}{1+e^{-\\eta}} = \\frac{1}{1+e^{-(\\beta_0+ \\beta_1x_1+ \\beta_2x_2+ ... +\\beta_kx_k)}}$$" ] }, { "cell_type": "markdown", "id": "23bb4fb7-334c-47f9-ba40-e2d4cd8d742e", "metadata": {}, "source": [ "Die logistische Funktion für das Intervall $[-6 \\ $,$ \\ 6]$ ist unten dargestellt. Für Werte von $\\eta$ im Bereich von $-\\infty$ bis $\\infty$ liegt $\\pi$ im Bereich von $0$ bis $1$." ] }, { "cell_type": "code", "execution_count": 3, "id": "1b19d7a7-20a4-4bcd-a21e-0acab39e9c38", "metadata": { "tags": [ "hide-input" ] }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "import matplotlib.pyplot as plt\n", "import numpy as np\n", "\n", "fig, ax = plt.subplots()\n", "x = np.linspace(-6, 6, 100)\n", "z = 1 / (1 + np.exp(-x))\n", "ax.plot(x, z, linewidth=4)\n", "\n", "ax.set_yticks([0, 0.5, 1])\n", "ax.set_xlabel(\"$\\eta$\")\n", "ax.set_ylabel(\"$\\pi$\")\n", "ax.axvline(0, color=\"k\")\n", "for _y in [0, 0.5, 1]:\n", " ax.axhline(_y, color=\"k\", linestyle=\"--\")" ] }, { "cell_type": "markdown", "id": "ad7656bb-c918-4a73-9c3c-6997fa1be4a0", "metadata": {}, "source": [ "## Das logistische Regressionsmodell" ] }, { "cell_type": "markdown", "id": "339d54f9-b957-49ea-a86d-49d11f9de871", "metadata": {}, "source": [ "Die Logit-Funktion bildet Wahrscheinlichkeiten auf Werte über den gesamten realen Zahlenbereich ab. Die Wahrscheinlichkeit, dass ein Ereignis/Ergebnis/Erfolg wahr ist ($y=1$), wenn die Menge der unabhängigen Variablen $x_i$, unsere Daten, gegeben ist, wird also geschrieben als" ] }, { "cell_type": "markdown", "id": "d8ffd008-7019-4cdd-877e-786b4b434186", "metadata": {}, "source": [ "$$logit(P(y=1|x_i)) = \\beta_0+ \\beta_1x_1+ \\beta_2x_2 + ... + \\beta_kx_k\\text{,}$$" ] }, { "cell_type": "markdown", "id": "08f26a78-3036-4fb1-80a8-a899bdc37add", "metadata": {}, "source": [ "Der Einfachheit halber drücken wir das Inverse der obigen Funktion wie folgt aus" ] }, { "cell_type": "markdown", "id": "a11a4aec-4317-4a3d-b22e-327568c81e4f", "metadata": {}, "source": [ "$$\\phi(\\eta) = \\frac{1}{1+e^{-\\eta}}\\text{,}$$" ] }, { "cell_type": "markdown", "id": "4f02feef-dba4-4f59-b2e0-8f0a1837aa0e", "metadata": {}, "source": [ "wobei $\\eta$ die Linearkombination von Koeffizienten ($\\beta_i$) und unabhängiger Variablen ($x_i$) ist, berechnet als $\\eta = \\beta_0 + \\beta_1x_1 + \\beta_2x_2 + ... + \\beta_kx_k$." ] }, { "cell_type": "markdown", "id": "1c0c315a-2d90-4e66-b547-9f70e0dc2140", "metadata": {}, "source": [ "Die Parameter ($\\beta_i$) des Logit-Modells werden nach der Methode der maximalen Wahrscheinlichkeit geschätzt. Es gibt jedoch keine geschlossene Lösung, so dass die Maximum-Likelihood-Schätzungen u. a. durch iterative Algorithmen wie Newton-Raphson, iterativ neu gewichtete kleinste Quadrate oder Gradientenverfahren ermittelt werden.\n", "\n", "Das Ergebnis der Sigmoidfunktion wird als die Wahrscheinlichkeit interpretiert, dass eine bestimmte Beobachtung zur Klasse $1$ gehört. Sie wird geschrieben als $\\phi(\\eta)=P(y=1|x_i,\\beta_i)$, die Erfolgswahrscheinlichkeit ($y=1$) bei den durch die Koeffizienten $\\beta_i$ parametrisierten Prädiktorvariablen $x_i$. Wenn wir beispielsweise für eine bestimmte Beobachtung $\\phi(\\eta)=0,65$ berechnen, bedeutet dies, dass die Wahrscheinlichkeit, dass diese Beobachtung zur Klasse $1$ gehört, $65 \\%$ beträgt. In ähnlicher Weise wird die Wahrscheinlichkeit, dass diese Beobachtung zu Klasse $2$ gehört, berechnet als $$\\phi(\\eta) = P(y=0|x_i,\\beta_i) = 1 - P(y=1|x_i,\\beta_i) = 1 - 0,65=0,35$$ oder $35 \\%$. Für die Klassenzuordnung wird die vorhergesagte Wahrscheinlichkeit dann über eine Einheitssprungfunktion in ein binäres Ergebnis umgewandelt:" ] }, { "cell_type": "markdown", "id": "3b0cfdfe-7138-473f-96df-03c79eb3137f", "metadata": {}, "source": [ "$$\n", "\\hat{y} =\n", "\\begin{cases}\n", "1, & \\text{wenn $\\phi(\\eta) \\ge$ 0,5} \\\\\n", "0, & \\text{sonst}\n", "\\end{cases}$$" ] }, { "cell_type": "markdown", "id": "fd88f442-dddd-43b2-bb65-e53d4d59efb1", "metadata": {}, "source": [ "## Logistische Regression in Python - ein Beispiel" ] }, { "cell_type": "markdown", "id": "82e242b9-2e68-4f21-bfca-7567a3ee971e", "metadata": {}, "source": [ "Die logistische Regressionsanalyse gehört zur Klasse der verallgemeinerten linearen Modelle. In Python werden verallgemeinerte lineare Modelle mit der Funktion `GLM()` verarbeitet. Die Funktion wird als `GLM(y=Antwort, X=Prädiktor, family=sm.families.Binomial())` geschrieben. Bitte beachten Sie, dass `logit` die Vorgabe für binomial ist; wir müssen es also nicht explizit eingeben. Die Funktion `GLM()` gibt ein Modellobjekt zurück, auf das wir Extraktormethoden wie `summary()`, `fitted()` oder `predict()` anwenden können. " ] }, { "cell_type": "markdown", "id": "3d2ff801-5d92-427d-a847-fcb9c15b13ce", "metadata": {}, "source": [ "### Einführung und explorative Datenanalyse" ] }, { "cell_type": "markdown", "id": "98c2228f-b855-4001-9725-3760943335ed", "metadata": {}, "source": [ "Dieses Beispiel ist inspiriert von der Arbeit von James B. Elsner und seinen Kollegen (Elsner et al. 1996 und Kimberlain und Elsner 1998), die an der **Klassifizierung der nordatlantischen Hurrikane** auf der Grundlage von Entstehungs- und Entwicklungsmechanismen gearbeitet haben. Die Klassifizierung ergibt drei verschiedene Gruppen: tropische Wirbelstürme, Wirbelstürme unter baroklinem Einfluss und Wirbelstürme mit baroklinem Ursprung. Der Begriff \"baroklin\" bezieht sich auf die Tatsache, dass diese Hurrikane von Störungen der äußeren Tropen beeinflusst werden oder sogar in den äußeren Tropen entstehen. Die stärkeren tropischen Wirbelstürme entwickeln sich weiter südlich und treten hauptsächlich im August und September auf. Die schwächeren außertropischen Wirbelstürme treten während einer längeren Saison auf. Der ursprüngliche Datensatz zur objektiven Hurrikan-Klassifizierung kann hier abgerufen werden. Die Analyse von James B. Elsner kann hier eingesehen werden.\n", "\n", "**Ziel der Übung ist es, ein Modell zu erstellen, das die Gruppenzugehörigkeit eines Hurrikans, entweder tropisch oder aussertropisch, auf der Grundlage des Breitengrades seiner Entstehung vorhersagt.**" ] }, { "cell_type": "markdown", "id": "14be31d3-2eb1-44a6-9b05-bdcffc92a246", "metadata": {}, "source": [ "Wir beginnen die Analyse mit dem Laden des Datensatzes. Laden Sie die Daten auf Ihren Computer herunter und öffnen Sie die Datei. Bitte beachten Sie, dass es sich bei der Datei um ein *Excel*-Tabelle handelt. Um mit *Excel*-Tabellen umgehen zu können benutzen wir `read_excel()` aus dem `Pandas` Paket." ] }, { "cell_type": "code", "execution_count": 4, "id": "6ce0d73d-66d7-48b9-be8c-8af4c3b5a70c", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
NumberNameYearTypeFirstLatFirstLonMaxLatMaxLonLastLatLastLonMaxInt
RowNames
1430NOTNAMED1944130.2-76.132.1-74.835.1-69.280
2432NOTNAMED1944025.6-74.931.0-78.132.6-78.280
3433NOTNAMED1944014.2-65.216.6-72.220.6-88.5105
4436NOTNAMED1944020.8-58.026.3-72.342.1-71.5120
5437NOTNAMED1944020.0-84.220.6-84.919.1-93.970
\n", "
" ], "text/plain": [ " Number Name Year Type FirstLat FirstLon MaxLat MaxLon \\\n", "RowNames \n", "1 430 NOTNAMED 1944 1 30.2 -76.1 32.1 -74.8 \n", "2 432 NOTNAMED 1944 0 25.6 -74.9 31.0 -78.1 \n", "3 433 NOTNAMED 1944 0 14.2 -65.2 16.6 -72.2 \n", "4 436 NOTNAMED 1944 0 20.8 -58.0 26.3 -72.3 \n", "5 437 NOTNAMED 1944 0 20.0 -84.2 20.6 -84.9 \n", "\n", " LastLat LastLon MaxInt \n", "RowNames \n", "1 35.1 -69.2 80 \n", "2 32.6 -78.2 80 \n", "3 20.6 -88.5 105 \n", "4 42.1 -71.5 120 \n", "5 19.1 -93.9 70 " ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "hurricanes = pd.read_excel(\"../../data/hurricanes.xlsx\", index_col=0)\n", "hurricanes.head(5)" ] }, { "cell_type": "markdown", "id": "ce0478be-7486-443c-8e94-442ab0ae5952", "metadata": {}, "source": [ "Zunächst untersuchen wir die Struktur des Datensatzes, indem wir die Methode `info()` anwenden." ] }, { "cell_type": "code", "execution_count": 5, "id": "e3fcfecf-c427-4222-bbcc-8c405dac55ed", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Int64Index: 337 entries, 1 to 337\n", "Data columns (total 11 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", " 0 Number 337 non-null int64 \n", " 1 Name 337 non-null object \n", " 2 Year 337 non-null int64 \n", " 3 Type 337 non-null int64 \n", " 4 FirstLat 337 non-null float64\n", " 5 FirstLon 337 non-null float64\n", " 6 MaxLat 337 non-null float64\n", " 7 MaxLon 337 non-null float64\n", " 8 LastLat 337 non-null float64\n", " 9 LastLon 337 non-null float64\n", " 10 MaxInt 337 non-null int64 \n", "dtypes: float64(6), int64(4), object(1)\n", "memory usage: 31.6+ KB\n" ] } ], "source": [ "hurricanes.info()" ] }, { "cell_type": "markdown", "id": "cbbc207e-63f6-4627-9c99-ee711125c9cd", "metadata": {}, "source": [ "Der Datensatz besteht aus $337$ Beobachtungen und $12$ Variablen. Wir interessieren uns in erster Linie für die Variable `Type`, die unsere Antwortvariable ist, und für die Variable `FirstLat`, die dem Breitengrad der Entstehung entspricht und somit unsere Prädiktorvariable ist. Um jedoch ein Gefühl für den Datensatz zu bekommen, stellen wir die Anzahl der Hurrikane für jedes Jahr als Balkendiagramm mit dem `mathplotlib`-Paket dar." ] }, { "cell_type": "code", "execution_count": 6, "id": "d0e55eba-e685-4090-93e2-c58e65a86cba", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "hurricanes[\"Year\"].value_counts().sort_index().plot.bar(figsize=(18, 6))" ] }, { "cell_type": "markdown", "id": "53965e33-0eef-47b2-8d3a-98f57db1768b", "metadata": {}, "source": [ "Das ist eine schöne Darstellung. Indem wir den Datensatz umformen können wir die Balken zusätzlich entsprechend der Variable `Type` einfärben." ] }, { "cell_type": "code", "execution_count": 7, "id": "c4a0f467-8069-41f9-a917-366a0adc6e72", "metadata": {}, "outputs": [], "source": [ "hurricane_types = (\n", " hurricanes.groupby(\"Type\")[\"Year\"].value_counts().unstack().transpose()\n", ")\n", "hurricane_types = hurricane_types.rename(\n", " columns={0: \"Tropisch\", 1: \"Baroklinisch beeinflusst\", 3: \"Barokline Entstehung\"}\n", ")" ] }, { "cell_type": "code", "execution_count": 8, "id": "3ea030a6-5022-44e7-b9e3-9178734adc86", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "hurricane_types.plot.bar(stacked=True)" ] }, { "cell_type": "markdown", "id": "82a7db79-6db0-4fb9-a7c0-eb89b5b117da", "metadata": {}, "source": [ "Für eine numerische Darstellung der Hurricane-Klassen verwenden wir die Methode `sum()`." ] }, { "cell_type": "code", "execution_count": 9, "id": "8d46e204-5bbb-4aa4-af73-1ed066c7c6df", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Klasse 0 (tropische Wirbelstürme) Hurrikans: 187.0\n", "Klasse 1 (barokline Einflüsse) Hurrikans: 77.0\n", "Klasse 3 (barokline Auslösung) Hurrikans: 73.0\n" ] } ], "source": [ "print(\n", " f\"Klasse 0 (tropische Wirbelstürme) Hurrikans: {hurricane_types['Tropisch'].sum()}\"\n", ")\n", "print(\n", " f\"Klasse 1 (barokline Einflüsse) Hurrikans: {hurricane_types['Baroklinisch beeinflusst'].sum()}\"\n", ")\n", "print(\n", " f\"Klasse 3 (barokline Auslösung) Hurrikans: {hurricane_types['Barokline Entstehung'].sum()}\"\n", ")" ] }, { "cell_type": "markdown", "id": "ba44c1c2-69eb-438c-92db-99a900617564", "metadata": {}, "source": [ "Für die **Klasse** $0$, *tropische Wirbelstürme*, gibt es $187$ Beobachtungen, für die **Klasse** $1$, *barokline Einflüsse*, gibt es $77$ Beobachtungen und für die **Klasse** $3$, *barokline Auslösung*, gibt es $73$ Beobachtungen. Bei der logistischen Regression haben wir es mit dichotomen Daten zu tun; der Einfachheit halber kodieren wir die Klassen neu und weisen der Klasse $1$ und der Klasse $3$, die beide von den äußeren Tropen beeinflusst werden, die Bezeichnung `aussertropisch` zu." ] }, { "cell_type": "code", "execution_count": 10, "id": "da266546-2993-44fb-8a4d-c36fb2fd3558", "metadata": {}, "outputs": [], "source": [ "hurricanes[\"Origins\"] = hurricanes[\"Type\"].replace(\n", " {0: \"tropisch\", 1: \"aussertropisch\", 3: \"aussertropisch\"}\n", ")" ] }, { "cell_type": "markdown", "id": "faf5c3b2-1dcc-4a23-b342-c6fb6d1fdd15", "metadata": {}, "source": [ "Wir haben nun eine binäre Antwortvariable mit zwei Klassen: Tropische und aussertropische Wirbelstürmen." ] }, { "cell_type": "code", "execution_count": 11, "id": "0cc1b873-cefa-41cf-8feb-7c361e88b37d", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "tropisch 187\n", "aussertropisch 150\n", "Name: Origins, dtype: int64" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "hurricanes[\"Origins\"].value_counts()" ] }, { "cell_type": "markdown", "id": "279f583b-787d-447c-b818-ff0a3445daef", "metadata": {}, "source": [ "Um diesen Teil der explorativen Datenanalyse abzuschließen, stellen wir die Daten auf einer interaktiven Karte dar, indem wir das `folium`-Paket verwenden." ] }, { "cell_type": "code", "execution_count": 12, "id": "729da249-c8a9-4b2a-8422-74968d52db4c", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
NumberNameYearTypeFirstLatFirstLonMaxLatMaxLonLastLatLastLonMaxIntOrigins
RowNames
1430NOTNAMED1944130.2-76.132.1-74.835.1-69.280aussertropisch
2432NOTNAMED1944025.6-74.931.0-78.132.6-78.280tropisch
3433NOTNAMED1944014.2-65.216.6-72.220.6-88.5105tropisch
4436NOTNAMED1944020.8-58.026.3-72.342.1-71.5120tropisch
5437NOTNAMED1944020.0-84.220.6-84.919.1-93.970tropisch
\n", "
" ], "text/plain": [ " Number Name Year Type FirstLat FirstLon MaxLat MaxLon \\\n", "RowNames \n", "1 430 NOTNAMED 1944 1 30.2 -76.1 32.1 -74.8 \n", "2 432 NOTNAMED 1944 0 25.6 -74.9 31.0 -78.1 \n", "3 433 NOTNAMED 1944 0 14.2 -65.2 16.6 -72.2 \n", "4 436 NOTNAMED 1944 0 20.8 -58.0 26.3 -72.3 \n", "5 437 NOTNAMED 1944 0 20.0 -84.2 20.6 -84.9 \n", "\n", " LastLat LastLon MaxInt Origins \n", "RowNames \n", "1 35.1 -69.2 80 aussertropisch \n", "2 32.6 -78.2 80 tropisch \n", "3 20.6 -88.5 105 tropisch \n", "4 42.1 -71.5 120 tropisch \n", "5 19.1 -93.9 70 tropisch " ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "hurricanes.head()" ] }, { "cell_type": "code", "execution_count": 13, "id": "013f767a-b17d-4adc-86fd-826db1227438", "metadata": { "tags": [] }, "outputs": [ { "data": { "text/html": [ "
Make this Notebook Trusted to load map: File -> Trust Notebook
" ], "text/plain": [ "" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Create the map\n", "hurricane_map = folium.Map(location=[25, -50], zoom_start=4)\n", "# add marker one by one on the map\n", "colors = {\"aussertropisch\": \"green\", \"tropisch\": \"red\"}\n", "for row in hurricanes.itertuples():\n", " m = folium.Marker(\n", " location=[row.FirstLat, row.FirstLon], icon=folium.Icon(colors[row.Origins])\n", " )\n", " m.add_to(hurricane_map)\n", "# Show the map\n", "hurricane_map" ] }, { "cell_type": "markdown", "id": "1e108668-1cf0-41c7-aed9-720959b87cbd", "metadata": {}, "source": [ "### Logistische Regression: Modellanpassung" ] }, { "cell_type": "markdown", "id": "6054a333-44d1-4e41-82d7-d7797c31c6c9", "metadata": {}, "source": [ "Erinnern Sie sich an das Ziel der Übung: Wir wollen ein Modell erstellen, das die Gruppenzugehörigkeit eines Hurrikans vorhersagt, entweder tropisch ($0$) oder aussertropisch ($1$), basierend auf dem Breitengrad der Entstehung des Hurrikans. Die Antwortvariable ist die binäre Variable `Origins` und die Prädiktorvariable ist `FirstLat`. Wir erstellen ein Logit-Modell, indem wir die Funktion `GLM()` anwenden. Für das logistische Regressionsmodell geben wir `family = sm.families.Binomial()` an. Statsmodel erwartet numerischen Inputvariablen, deshalb wandeln wir `tropisch` zu $0$ und `aussertropisch` zu $1$ um." ] }, { "cell_type": "code", "execution_count": 14, "id": "e4c2d8a7-e3c5-4e81-a825-077f7bc44a32", "metadata": {}, "outputs": [], "source": [ "X = hurricanes[\"FirstLat\"].values\n", "X = sm.add_constant(X)\n", "y = hurricanes[\"Origins\"].replace({\"tropisch\": 0, \"aussertropisch\": 1}).values\n", "log_model = sm.GLM(y, X, family=sm.families.Binomial()).fit()" ] }, { "cell_type": "markdown", "id": "fd7c936d-ce95-46dd-a851-780d60ec6349", "metadata": {}, "source": [ "Wir verwenden die Extraktormethode `summary()`, um die Modelleigenschaften zu überprüfen." ] }, { "cell_type": "code", "execution_count": 15, "id": "adbaa582-765d-4a7c-ad7f-01906a24d300", "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "
Generalized Linear Model Regression Results
Dep. Variable: y No. Observations: 337
Model: GLM Df Residuals: 335
Model Family: Binomial Df Model: 1
Link Function: Logit Scale: 1.0000
Method: IRLS Log-Likelihood: -116.02
Date: Sat, 13 Aug 2022 Deviance: 232.03
Time: 06:44:55 Pearson chi2: 430.
No. Iterations: 6 Pseudo R-squ. (CS): 0.4963
Covariance Type: nonrobust
\n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "\n", " \n", "\n", "
coef std err z P>|z| [0.025 0.975]
const -9.0826 0.961 -9.446 0.000 -10.967 -7.198
x1 0.3728 0.039 9.447 0.000 0.295 0.450
" ], "text/plain": [ "\n", "\"\"\"\n", " Generalized Linear Model Regression Results \n", "==============================================================================\n", "Dep. Variable: y No. Observations: 337\n", "Model: GLM Df Residuals: 335\n", "Model Family: Binomial Df Model: 1\n", "Link Function: Logit Scale: 1.0000\n", "Method: IRLS Log-Likelihood: -116.02\n", "Date: Sat, 13 Aug 2022 Deviance: 232.03\n", "Time: 06:44:55 Pearson chi2: 430.\n", "No. Iterations: 6 Pseudo R-squ. (CS): 0.4963\n", "Covariance Type: nonrobust \n", "==============================================================================\n", " coef std err z P>|z| [0.025 0.975]\n", "------------------------------------------------------------------------------\n", "const -9.0826 0.961 -9.446 0.000 -10.967 -7.198\n", "x1 0.3728 0.039 9.447 0.000 0.295 0.450\n", "==============================================================================\n", "\"\"\"" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "log_model.summary()" ] }, { "cell_type": "markdown", "id": "2985781b-9eef-49e3-b399-18971316b136", "metadata": {}, "source": [ "Schauen wir uns die Koeffizienten genauer an:" ] }, { "cell_type": "code", "execution_count": 16, "id": "61c39ba2-f404-4aa2-91f2-ec8bba02c4c1", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([-9.08263355, 0.37282953])" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "log_model.params" ] }, { "cell_type": "markdown", "id": "fd6f3863-4849-4391-aab9-977748e9c983", "metadata": {}, "source": [ "Beachten Sie, dass die Ausgabe des logistischen Modells auf der Link-Skala (*logit*) erfolgt; die numerische Ausgabe des Modells entspricht also den **Log-Odds**! Der Einfachheit halber schreiben wir das logistische Regressionsmodell mit dem berechneten Achsenabschnitt und Koeffizienten auf." ] }, { "cell_type": "markdown", "id": "fe6ddd85-3a55-447a-80e0-545d31817c47", "metadata": {}, "source": [ "$$\\phi(\\eta) = \\frac{1}{1+e^{-\\eta}}= \\frac{1}{1+e^{-(\\beta_0+\\beta_1x)}}= \\frac{1}{1+e^{-(-9,0826335+ 0,3728295x)}}$$" ] }, { "cell_type": "markdown", "id": "103f97c3-4112-4acc-8f6a-490781bd7f64", "metadata": {}, "source": [ "Konzentrieren wir uns zunächst auf den Koeffizienten des Achsenabschnitts. Der Koeffizient des Achsenabschnitts entspricht der logarithmischen Wahrscheinlichkeit der Beobachtung eines Hurrikans auf dem Breitengrad Null, der als Äquator bekannt ist. Um die Wahrscheinlichkeit der Beobachtung eines aussertropischen Hurrikans bei einem Breitengrad von Null zu berechnen, exponentzieren wir die log-odds $e^{-9,0826335} \\approx 1,1362198\\times 10^{-4}$. \n", "\n", "Dies ist eine sehr niedrige Zahl! Und sie macht durchaus Sinn, da es sehr unwahrscheinlich ist, einen aussertropischen Hurrikan am Äquator zu beobachten.\n", "\n", "Der Koeffizient der Variable für die Bildungsbreite (`FirstLat`) hat einen numerischen Wert von $0,3728295$. Das positive Vorzeichen dieses Wertes zeigt an, dass die Wahrscheinlichkeit, einen außertropischen Wirbelsturm zu beobachten, mit dem Breitengrad zunimmt. Die Größe des Koeffizienten bedeutet, dass die Log-Odds für jedes Grad Zunahme der geografischen Breite im Durchschnitt um konstant $0,3728295$ Einheiten zunimmt. Wenn man den Koeffizientenwertes als Exponenten nimmt, erhält man das Odds Verhältnis." ] }, { "cell_type": "code", "execution_count": 17, "id": "674d77df-7539-45d8-bbf5-9753a1c1b5db", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1.4518368266008623" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "math.exp(log_model.params[1])" ] }, { "cell_type": "code", "execution_count": 18, "id": "ff2b665c-6d48-4399-a2ed-b2d9f7655e3c", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.37282953171362" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "log_model.params[1]" ] }, { "cell_type": "markdown", "id": "11fe36a8-6d8b-4d88-8567-e631d02c39ce", "metadata": {}, "source": [ "Somit erhöht sich das Chancenverhältnis für jedes Grad Zunahme der Bildungsbreite im Durchschnitt um einen konstanten Faktor von $1,4518368$ (oder $45 \\%$). Die Interpretation gilt nur für den Bereich der Breitengrade in den Daten und ist für Breitengrade außerhalb des Bereichs, in dem Hurrikane auftreten, physikalisch bedeutungslos.\n", "\n", "Die obige Koeffiziententabelle enthält einen Standardfehler und den $p$-Wert. Je kleiner der $p$-Wert ist, desto geringer ist die Unterstützung für die Nullhypothese angesichts der Daten und des Modells. Zur Erinnerung: Die Nullhypothese besagt, dass der Koeffizient gleich $0$ ist,\n", "mit anderen Worten, die Nullhypothese besagt, dass es keinen Zusammenhang zwischen dem Auftreten eines nichttropischen Hurrikans und der Entstehungsbreite gibt. Der sehr kleine $p$-Wert stützt die Nullhypothese nicht und erlaubt uns, das Modell zu akzeptieren.\n", "\n", "Wir haben gelernt, dass jede Punktschätzung von einem Konfidenzniveau bezüglich dieser Punktschätzung begleitet sein sollte. Daher konstruieren wir ein $95 \\%$-Konfidenzintervall für den geschätzten Modellkoeffizienten. Wir exponentzieren das Ergebnis, um das Odds-Ratio zu erhalten, eine Größe, die leichter zu interpretieren ist als die Log-Odds." ] }, { "cell_type": "code", "execution_count": 19, "id": "2f624e32-1051-4cbb-bc80-c7f0699c3e51", "metadata": {}, "outputs": [], "source": [ "lci = log_model.conf_int()[1][0]\n", "uci = log_model.conf_int()[1][1]" ] }, { "cell_type": "code", "execution_count": 20, "id": "115d8cbd-0f9d-4f70-a759-89b176d55eab", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2,5%: 0.2955\n", "97,5%: 0.4502\n" ] } ], "source": [ "print(f\"2,5%: {round(lci,4)}\")\n", "print(f\"97,5%: {round(uci,4)}\")" ] }, { "cell_type": "code", "execution_count": 21, "id": "d3b7a92c-7778-4c08-a834-015c3843677a", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2,5%: 1.3438\n", "97,5%: 1.5686\n" ] } ], "source": [ "print(f\"2,5%: {round(math.exp(lci),4)}\")\n", "print(f\"97,5%: {round(math.exp(uci),4)}\")" ] }, { "cell_type": "markdown", "id": "48f39be7-0515-4642-9302-6956c27291dc", "metadata": {}, "source": [ "Wir können also mit $95 \\%$iger Sicherheit sagen, dass für jedes Grad Zunahme der geographischen Breite die Beobachtung eines aussertropischen Hurrikans im Durchschnitt zwischen $34$ und $57 \\%$ wahrscheinlicher wird. Macht Sinn, oder? In anderen Worten je weiter nördlich Wirbestürme entstehen, umso eher is dieser aussertropischen Einflüssen unterworfen. " ] }, { "cell_type": "markdown", "id": "aa27d40d-7383-4438-93ae-983aeac5ff8a", "metadata": {}, "source": [ "### Logistische Regression: Modellvorhersage" ] }, { "cell_type": "markdown", "id": "a407c494-fd17-45a1-bd15-f0b05cbdbc3d", "metadata": { "tags": [] }, "source": [ "Im vorangegangenen Abschnitt haben wir ein logistisches Regressionsmodell für die Beziehung zwischen der Entstehungsbreite und der Art des Hurrikans (tropisch/aussertropisch) erstellt. In diesem Abschnitt wenden wir dieses Modell an, um Vorhersagen über die Wahrscheinlichkeit der Beobachtung eines aussertropischen Hurrikans in Abhängigkeit von der Entstehungsbreite zu machen.\n", "\n", "Um die Wahrscheinlichkeit vorherzusagen, dass ein zufällig ausgewählter Hurrikan, der sich auf einem bestimmten Breitengrad bildet, vom Typ aussertropisch ist, wenden wir die Funktion `predict()` an. Berechnen wir die Wahrscheinlichkeit, einen aussertropischen Hurrikan zu beobachten, der sich bei folgenden Breitengraden gebildet hat : $10^\\circ, 23,5^\\circ \\text{und }30^\\circ$" ] }, { "cell_type": "code", "execution_count": 22, "id": "48b06a50-9ee9-49cd-8d52-3bab5110b261", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
meanmean_semean_ci_lowermean_ci_upper
00.0047050.0027010.0015240.01443
10.4203980.0406450.3434230.50145
20.8911220.0280450.8228410.93516
\n", "
" ], "text/plain": [ " mean mean_se mean_ci_lower mean_ci_upper\n", "0 0.004705 0.002701 0.001524 0.01443\n", "1 0.420398 0.040645 0.343423 0.50145\n", "2 0.891122 0.028045 0.822841 0.93516" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pred = [10.0, 23.5, 30.0] #\n", "pred = sm.add_constant(pred)\n", "predictions = log_model.get_prediction(exog=pred).summary_frame()\n", "predictions" ] }, { "cell_type": "markdown", "id": "5d0557a4-5089-4ae4-b47c-80d7186b17cf", "metadata": {}, "source": [ "Die Ergebnisse machen durchaus Sinn. Mit zunehmender geografischer Breite nimmt die Wahrscheinlichkeit, die Bildung eines nichttropischen Hurrikans zu beobachten, deutlich zu. Bei einem Breitengrad von $10^\\circ$ beträgt die Wahrscheinlichkeit der Beobachtung eines außertropischen Hurrikans $0,005$, während sie bei einem Breitengrad von $30^\\circ \\ 0,891$ beträgt.\n", "\n", "Zum besseren Verständnis wollen wir die Wahrscheinlichkeit der Beobachtung eines nichttropischen Hurrikans, der sich bei einem Breitengrad von $23,5^\\circ$\n", "von Hand. Erinnern wir uns an die Gleichung für das Regressionsmodell von oben:" ] }, { "cell_type": "markdown", "id": "a933c911-9ecf-494b-b7e0-1790fd1b2f84", "metadata": {}, "source": [ "\n", "$\\phi(\\eta) = \\frac{1}{1+e^{-\\eta}} = \\frac{1}{1+e^{-(\\beta_0+\\beta_1x_1)}}$\n", "\n", "$ = \\frac{1}{1+e^{-(-9,0826335+ 0,3728295 \\times 23,5)}}$\n", "\n", "$ =\\frac{1}{1+e^{-(-0,3211396)}} $\n", "\n", "$ = \\frac{1}{2,378698} = 0,4203981 $" ] }, { "cell_type": "markdown", "id": "dbe2e901-9d3d-431b-b23f-f367779c5e99", "metadata": {}, "source": [ "Zur Veranschaulichung unserer Ergebnisse erstellen wir ein Diagramm der Vorhersagen über eine Reihe von Breitengraden. Dazu erstellen wir zunächst einen Vektor der Breitengrade, `lats`. Wir geben eine Schrittweite von $0,1$ Grad an, damit die resultierende Vorhersagekurve glatt ist. Wir wenden die Funktion `predict()` an und verwenden die Methode `get_prediction()`, um den **Standardfehler** der Vorhersage zu erhalten. Die Kenntnis des Standardfehlers ermöglicht die Berechnung der **Fehlermarge** und damit des **Konfidenzintervalls**. Mit der Methode `summary_frame()` können wir die Werte in einem Dataframe ausgeben und darauf zugreifen. Schließlich zeichnen wir die Datenpunkte (Beobachtungen) bei $0$ und $1$ ein." ] }, { "cell_type": "code", "execution_count": 23, "id": "332a4aa4-9831-4cb3-a5dd-4e76e6d4463e", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Berechne Vorhersagen für lats\n", "X = hurricanes[\"FirstLat\"].values\n", "X = sm.add_constant(X)\n", "y = hurricanes[\"Origins\"].replace({\"tropisch\": 0, \"aussertropisch\": 1}).values\n", "\n", "lats_grid = np.linspace(min(hurricanes[\"FirstLat\"]), max(hurricanes[\"FirstLat\"]))\n", "\n", "\n", "log_model = sm.GLM(y, X, family=sm.families.Binomial()).fit()\n", "predictions = log_model.get_prediction(exog=sm.add_constant(lats_grid)).summary_frame()\n", "\n", "# Ploting\n", "fig, ax = plt.subplots()\n", "ax.plot(lats_grid, predictions[\"mean\"])\n", "ax.fill_between(\n", " lats_grid,\n", " predictions[\"mean_ci_lower\"],\n", " predictions[\"mean_ci_upper\"],\n", " color=\"grey\",\n", " alpha=0.25,\n", ")\n", "outer = hurricanes.loc[hurricanes.Origins == \"aussertropisch\", \"FirstLat\"].values\n", "ax.scatter(outer, np.repeat(1, repeats=len(outer)), label=\"aussertropisch\", alpha=0.4)\n", "tropical = hurricanes.loc[hurricanes.Origins == \"tropisch\", \"FirstLat\"].values\n", "ax.scatter(tropical, np.repeat(0, repeats=len(tropical)), label=\"tropisch\", alpha=0.4)\n", "\n", "ax.grid()\n", "for _y in [0.1, 0.5, 0.9]:\n", " ax.axhline(y=_y, color=\"gray\", linestyle=\"dashed\")\n", "ax.set_xlabel(\"Geografische Breite\")\n", "ax.set_ylabel(\"Wahrscheinlichkeit\")\n", "ax.legend()" ] }, { "cell_type": "markdown", "id": "db9a342f-b9da-4587-ab7d-eb17bb74e8a8", "metadata": {}, "source": [ "Die Beobachtungen tropischer und aussertropischer Hurrikane sind entlang der Linien $y=0$ bzw. $y=1$ Linien dargestellt. Das graue Band ist das $95 \\%$ige punktweise Konfidenzintervall.\n", "\n", "Die Modellvorhersagen zeigen, dass die Wahrscheinlichkeit eines nichttropischen Hurrikans bei Breitengraden südlich von $20^\\circ N$ weniger als $10 \\%$ beträgt. Bis zum Breitengrad $26^\\circ N$ übersteigt die Wahrscheinlichkeit jedoch $50 \\%$ und bis zum Breitengrad $33^\\circ N$ übersteigt die Wahrscheinlichkeit $90 \\%$. Das Chancenverhältnis ist konstant, aber die Wahrscheinlichkeit ist eine nichtlineare Funktion des Breitengrads." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.2" } }, "nbformat": 4, "nbformat_minor": 5 }