Tutorial 1: Organisation, Quarto und die Titanic
Lernziele
- Umgang mit RStudio, R und Quarto
- Organisation von Code und Datenanalyse-Projekten
- Erstes Arbeiten mit echten Daten
Organisatorisches
Auf dem ersten Übungszettel werden wir uns zuerst mit der Organisation in R beschäftigen. Später wird Ihnen das sehr bei dem Umgang mit Code und Daten helfen. Wir empfehlen zu Beginn ein neues Projekt in RStudio für das Tutorium anzulegen.
Ordnerstruktur
Grundsätzlich bietet es sich an für jedes Projekt einen neuen Ordner zu erstellen. Hier bedeutet das: Ein Ordner pro Übung. Erstellen Sie zusätzlich Unterordner:
Daten
Code
Ergebnisse
Temp
R und Quarto
R ist eine statistische Programmiersprache und wird das Hauptwerkzeug für die Arbeit mit Daten und Anwendung der gelernten Methoden sein. Quarto ist ein Tool, dass Ihnen hilft, Ihre Daten und Ihren Code zu organisieren und in Form zu bringen. Es ist ein bisschen wie ein Notizbuch, in dem Sie Ihre Gedanken und Ideen festhalten können. Beschreibender Text und Arbeit mit Daten finden in einem Dokument statt, und sieht bspw. so aus:
---
title: "Quarto Example"
format: pdf
papersize: a4
---
# My Quarto File
Here is some text in my Quarto file.
## A Subsection
`R` code block:
More text under a subsection. And here is an
```{.r eval = TRUE, fig.width=6, fig.height=2.75}
# Load necessary library
library(ggplot2)
# Create a simple data frame
data <- data.frame(x = 1:10,
y = (1:10)^2)
# Generate a plot
ggplot(data, aes(x = x, y = y)) +
geom_line() +
labs(title="Simple Plot", x="X axis", y="Y axis")
```
Los gehts: Arbeiten mit Daten
Als Beispiel, wie wir in den kommenden Wochen arbeiten werden, wollen wir uns nun mit Daten zu der Titanic genauer beschäftigen. Die Daten finden Sie hier: titanic.csv
Ordnen Sie die Fragen im Quatro Dokument sinnvoll.
Aufgaben
- Speichern Sie zunächst die Datei
titanic.csv
im entsprechenden Unterordner und lesen Sie diese mitread.csv()
oderfread()
im Quarto-Dokument ein. - Haben mehr Frauen oder mehr Männer überlebt? Zeigen Sie Ihre Ergebnisse mit
table()
. - Erstellen Sie vier Histograme mit
ggplot2::geom_histogram
zu dem Alter der Passagiere. Ein Histogram mit allen Passagieren und drei weitere für jeweils eine Klasse. Welche Unterschiede fallen Ihnen auf? - Berechnen Sie die Wahrscheinlichkeit eine zufällige Person auszuwählen, die ein Ticket mit einem Preis von über 100 erworben hatte. Welche Ihnen bekannte Verteilung könnte die Daten gut beschreiben?