Tutorial 1: Organisation, Quarto und die Titanic

Zurück zur Startseite

Lernziele

  • Umgang mit RStudio, R und Quarto
  • Organisation von Code und Datenanalyse-Projekten
  • Erstes Arbeiten mit echten Daten

Organisatorisches

Auf dem ersten Übungszettel werden wir uns zuerst mit der Organisation in R beschäftigen. Später wird Ihnen das sehr bei dem Umgang mit Code und Daten helfen. Wir empfehlen zu Beginn ein neues Projekt in RStudio für das Tutorium anzulegen.

Ordnerstruktur

Grundsätzlich bietet es sich an für jedes Projekt einen neuen Ordner zu erstellen. Hier bedeutet das: Ein Ordner pro Übung. Erstellen Sie zusätzlich Unterordner:

  • Daten
  • Code
  • Ergebnisse
  • Temp

R und Quarto

R ist eine statistische Programmiersprache und wird das Hauptwerkzeug für die Arbeit mit Daten und Anwendung der gelernten Methoden sein. Quarto ist ein Tool, dass Ihnen hilft, Ihre Daten und Ihren Code zu organisieren und in Form zu bringen. Es ist ein bisschen wie ein Notizbuch, in dem Sie Ihre Gedanken und Ideen festhalten können. Beschreibender Text und Arbeit mit Daten finden in einem Dokument statt, und sieht bspw. so aus:

---
title: "Quarto Example"
format: pdf
papersize: a4
---

# My Quarto File

Here is some text in my Quarto file.

## A Subsection

More text under a subsection. And here is an `R` code block:

```{.r eval = TRUE, fig.width=6, fig.height=2.75}
# Load necessary library
library(ggplot2)

# Create a simple data frame
data <- data.frame(x = 1:10,
                   y = (1:10)^2)

# Generate a plot
ggplot(data, aes(x = x, y = y)) +
  geom_line() +
  labs(title="Simple Plot", x="X axis", y="Y axis")
```

Los gehts: Arbeiten mit Daten

Als Beispiel, wie wir in den kommenden Wochen arbeiten werden, wollen wir uns nun mit Daten zu der Titanic genauer beschäftigen. Die Daten finden Sie hier: titanic.csv

Ordnen Sie die Fragen im Quatro Dokument sinnvoll.

Aufgaben

  1. Speichern Sie zunächst die Datei titanic.csv im entsprechenden Unterordner und lesen Sie diese mit read.csv() oder fread() im Quarto-Dokument ein.
  2. Haben mehr Frauen oder mehr Männer überlebt? Zeigen Sie Ihre Ergebnisse mittable().
  3. Erstellen Sie vier Histograme mit ggplot2::geom_histogram zu dem Alter der Passagiere. Ein Histogram mit allen Passagieren und drei weitere für jeweils eine Klasse. Welche Unterschiede fallen Ihnen auf?
  4. Berechnen Sie die Wahrscheinlichkeit eine zufällige Person auszuwählen, die ein Ticket mit einem Preis von über 100 erworben hatte. Welche Ihnen bekannte Verteilung könnte die Daten gut beschreiben?

Zurück zur Startseite