Session 1

Organisatorisches, Roadmap und R

Team


Julian Hinz

Timo Adam

Lars Abt

Marc Panhorst

Aaron Lohmann

Was ist angewandte Statistik?

Statistik

  • … entwickelt Methoden zur Analyse von Daten
  • … und unterstützt bei deren Anwendung auf echte Daten

Was ist angewandte Statistik?

Mathematische Statistik

  • befasst sich primär mit Methodenentwicklung
  • im Vordergrund stehen die mathematischen Eigenschaften
  • oft abstrakt, praktischer Nutzen nicht immer sofort klar (Mathe halt…)

Was ist angewandte Statistik?

Angewandte Statistik

  • soll mit geeigneten Methoden aus echten Daten Informationen gewinnen
  • braucht Methodenkompetenz sowie Verständnis des inhaltlichen Problems
  • in der Regel stark interdisziplinäre Zusammenarbeit

Was zeichnet angewandte Statistik aus?

  • Bedeutung der angewandten Statistik wächst im Datenzeitalter rasant
  • hohes Maß an Interdisziplinarität — mit allen Vor- und Nachteilen: hoher Bedarf an effektiver Kommunikation
  • oft aufwändige Datenaufbereitung und viel Programmiertätigkeit
  • komplexe Daten, welche es eben nicht erlauben, Standardwerkzeuge anzuwenden

Angewandte Statistik klingt langweilig?

Data Science.

Slides



Plan


  1. Organisatorisches
  2. Roadmap
  3. R

Vorlesung


  • Dozenten: Julian Hinz und Timo Adam (julian.hinz@uni-bielefeld.de und timo.adam@uni-bielefeld.de)

  • 2 Gastvorlesungen: Aaron Lohmann

  • Termin: Dienstags 16:15–17:45 Uhr in H7

  • Theorie und Praxis: Computer mitbringen, wir werden programmieren!

Tutorien

  • Tutoren: Lars Abt und Marc Panhorst

  • 4 Tutorien pro Woche — Donnerstags 12-14h, 14-16h (2 mal), 16-18h

  • Platzvergabe morgen, also: heute anmelden im ekvv!

  • 3 Tutorien in den eKVV-Stundenplan nehmen, inkl. Prioritäten

  • Ziel: optimal auf die Projektaufgaben vorzubereiten

  • Die Tutorien beginnen nächste Woche (17. April)




Platzvergabe morgen, also:
jetzt anmelden im ekvv!

Material

  • Kurs-Website: https://statistik.julianhinz.com
  • Fahrmeir L., Heumann, C., Künstler, R., Pigeot, I. und Tutz, G. (2016), Statistik: Der Weg zur Datenanalyse, Springer
  • Fahrmeir, L., Kneib, T. und Lang, S. (2009), Regression, Springer
  • Bruce, P., Bruce A. und Gedeck, P. (2021), Praktische Statistik für Data Scientists, O’Reilly

Kommunikation außerhalb der Vorlesung

Element-Raum für Fragen insb. zu den Aufgabenzetteln:

Prüfungsleistung

Ersttermin im Sommersemester:

  • Portfolioprüfung über Öko/CoMet/AngStat
  • je 30 Punkte pro Veranstaltung
  • Öko und CoMet liegt bereits hinter Ihnen
  • die 30 Punkte in Angewandte Statistik werden über Projektaufgaben vergeben

Zweittermin im Sommersemester:

  • normale Klausur (vermutlich im September) über alle 3 Vorlesungen
  • kein Nachteil was den Schwierigkeitsgrad/die Bewertung betrifft

Projektaufgaben

Formalia:

  • 2 Aufgabenzettel mit je 3-5 Aufgaben, 15 Punkte pro Zettel
  • jeweils über einen Zeitraum von einer Woche zu bearbeiten
  • Zettel 1: Mitte Mai, Zettel 2: Ende Juni
  • nur Einzelabgaben

Inhaltlich:

  • jede*r von Ihnen bekommt eigene Datensätze zur Analyse
  • Methoden die in Vorlesung und Tutorien geübt werden
  • Nutzung von R ist essenziell

Roadmap

Session 1

heute — Julian Hinz, Timo Adam

  • R
  • Simulationen

Session 2

15. April — Timo Adam

  • Verteilungsschätzung
  • empirische Verteilungsfunktionen
  • Histogramme

Session 3

22. April — Timo Adam

  • Verteilungsschätzung
  • Kerndichteschätzer

Session 4

29. April — Timo Adam

  • Lineare Regression
  • Poissonregression (für Zähldaten)

Session 5

6. Mai — Timo Adam

  • Logistische Regression (für binäre Daten)

Session 6

13. Mai — Timo Adam

  • Nicht-parametrische Regression (für nicht-lineare Zusammenhänge)
  • Nadaraya-Watson

Session 7

20. Mai — Timo Adam

  • Nicht-parametrische Regression (für nicht-lineare Zusammenhänge)
  • Splines

Session 8

27. Mai — Julian Hinz

  • Klassifikation

Session 9

3. Juni — Julian Hinz

  • Dimensionsreduktion und Clustering

Session 10

10. Juni — Julian Hinz

  • Bootstrapping

Session 11

17. Juni — Aaron Lohmann

  • Kausale Inferenz

Session 12

24. Juni — Aaron Lohmann

  • Differences in Differences

Session 13

1. Juli — Julian Hinz

  • LLMs

Session 14

8. Juli — Julian Hinz, Timo Adam

  • Wrap-up und Q & A

R

R

  • Angewandte Statistik ist ohne Programmierung undenkbar
  • Statistiksoftware R: sehr mächtig, kostenlos, und open source \(\rightarrow\) ideal!
  • wir wissen: R Kenntnisse sehr heterogen über Hörer*innenschaft verteilt
    \(\rightarrow\) Tutorien entsprechend gestaltet

Installation von R und RStudio

Installation von R und RStudio

Schritt 1: R installieren

Installation von R und RStudio

Schritt 2: RStudio installieren

Fragen? \(\rightarrow\) Element.