Deskriptive Statistik

import pandas as pd

Angewandte Statistik lässt sich in zwei Bereiche unterteilen: deskriptive Statistik und Inferenzstatistik. Die deskriptive Statistik umfasst Methoden zur Organisation, Darstellung und Beschreibung von Daten mit Hilfe von Tabellen, Diagrammen und Streuungsmaße. Im Gegensatz dazu besteht die inferentielle Statistik aus Methoden, die Stichprobenergebnisse verwenden, um Entscheidungen oder Vorhersagen über eine Grundgesamtheit zu treffen (Cramer [2017] s.1–151, 231–312, Fahrmeir et al. [2016] s.10, 12 ).

Das Wort univariat bezieht sich auf die Tatsache, dass nur eine Variable betrachtet wird. Der Hauptzweck der univariaten Statistik besteht darin, die Daten zu beschreiben und zusammenzufassen. Wenn zwei oder mehr Variablen analysiert werden, spricht man von bivariater oder multivariater Analyse bzw. Statistik. In diesem Fall sind wir in erster Linie an den Beziehungen zwischen und unter einer Reihe von Variablen interessiert.

Strukturierte Datensätze

Strukturierte Daten

Bei Data Science geht es um die Gewinnung von Wissen aus Daten. Daten sind eine spezifische Form von Informationen und weisen verschiedene Abstraktions- und Strukturniveaus auf (strukturiert, halbstrukturiert oder unstrukturiert).
Eine sehr verbreitete Datenstruktur ist ein Array. In verschiedenen Bereichen gibt es andere Bezeichnungen für einen solchen Datentyp, die synonym verwendet werden, z. B. Matrix (Lang [2005]) in der Mathematik, Tabelle in Datenbanken, Tabellenkalkulation und Dataframe , der eine grundlegende Python-Objektklasse ist zB : (Pandas DataFrame).
Daten eines solchen Typs bestehen aus Beobachtungen und entsprechenden Variablen, die oft als Merkmale bezeichnet werden.

id

Name

Age

1

John

26

2

Alice

20

3

Mike

21

4

Anne

25

In diesem Beispiel entsprechen die Beobachtungen (Stichprobe genannt) einer Anzahl von Personen. Jede beobachtete Person wird durch eine Reihe von Variablen (so genannte Merkmale) charakterisiert: durch eine Identifikationsnummer (id), durch einen Namen und durch ein Alter. In unserem Beispiel ist es sehr einfach, sich durch einen Blick auf die Tabelle einen Gesamteindruck von den Daten selbst zu verschaffen. Wir erkennen sofort, dass es in unserer Stichprobe \(4\) Personen gibt, zwei Frauen und zwei Männer. Außerdem sehen wir sofort, dass die jüngste Person \(20\) Jahre alt ist und Alice heißt und die älteste Person \(26\) Jahre alt ist und John heißt; perfekt!

Anwendungen in der realen Welt enthalten jedoch oft eine große Menge an Daten. Hunderte, Tausende, Millionen oder sogar Milliarden von Beobachtungen, kombiniert mit Tausenden von Variablen, können einen Datensatz bilden. Für den Menschen ist es unmöglich, allein durch die Betrachtung solcher Datensätze irgendwelche Schlussfolgerungen über die Daten zu ziehen. Daher reduzieren wir die Daten auf eine überschaubare Größe, indem wir Tabellen erstellen, Diagramme zeichnen oder zusammenfassende Maße wie Durchschnittswerte berechnen. Diese Art von statistischen Methoden wird als deskriptive Statistik bezeichnet ([Fahrmeir et al., 2016] s.10).

Der students Datensatz

In diesem Abschnitt werden wir einen Datensatz namens students untersuchen. Zunächst laden wir den Datensatz, geben ihm einen geeigneten Namen und verschaffen uns einen Eindruck von seiner Struktur und Größe, indem wir die Methode info() auf den Datensatz anwenden.

# Lese Datei students.csv als Dataframe ein
df = pd.read_csv("../../data/students.csv")
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8239 entries, 0 to 8238
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   stud_id          8239 non-null   int64  
 1   name             8239 non-null   object 
 2   gender           8239 non-null   object 
 3   age              8239 non-null   int64  
 4   height           8239 non-null   int64  
 5   weight           8239 non-null   float64
 6   religion         8239 non-null   object 
 7   nc_score         8239 non-null   float64
 8   semester         8239 non-null   object 
 9   major            8239 non-null   object 
 10  minor            8239 non-null   object 
 11  score1           4892 non-null   float64
 12  score2           4892 non-null   float64
 13  online_tutorial  8239 non-null   int64  
 14  graduated        8239 non-null   int64  
 15  salary           1753 non-null   float64
dtypes: float64(5), int64(5), object(6)
memory usage: 1.0+ MB

Der Studentendatensatz besteht aus \(8239\) Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und \(16\) Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: stud_id, name, gender, age, height, weight, religion, nc_score, semester, major, minor, score1, score2, online_tutorial, graduated, salary. Neben dem jeweiligen Variablennamen listet die Methode info() die Klasse jeder einzelnen Variablen auf. Alle Objekte in Python haben eine Klasse, z. B. numerische Datentypen , die in die Unterklassen (int) Ganzzahlen , (float) Gleitkommazahlen und (imag) komplexe Zahlen, eingeteilt werden.

In den nächsten Abschnitten werden wir die deskriptiven Statistiken des students Datensatzes genauer untersuchen.