Skip to content

Dataset validation for Kommuki project

Notifications You must be signed in to change notification settings

CorrelAid/kommuki-qm

Repository files navigation

Datenqualitätscheck Kommuki

Hintergrund: für das Datenvorhaben Kommuki gibt es ein CMS (Strapie), in das die Daten geladen werden über eine Hochlademaske.

Die Daten liegen bei Politik zum Anfassen e.V. als Google Sheets vor und müssen einer Struktur entsprechen.

Dieses Projekt enthält 2 Dinge:

  1. einen Datenqualitätsreport (kommuki_datenqualitaet.Rmd)
  2. ein Datenbereinigungsskript um final noch ein paar kleinere Dinge zu bereinigen (daten_bereinigen.R) und ein csv zu erstellen, was in die Upload-Maske hochgeladen werden kann

Installation & Setup

R & RStudio / Projekt öffnen

  1. R und RStudio installieren
  2. dieses Projekt herunterladen (grüner Code Button -> Download as Zip)
  3. Projekt entzippen
  4. Doppelklick auf kommuki_qm.Rproj sollte das Projekt in RStudio öffnen.

Packages

Wir brauchen bestimmte R Pakete. Diese installieren wir in der R Console. Hierzu den Command kopieren und mit Enter ausführen.

renv installieren:

install.packages("renv")

Packages installieren:

renv::restore()

falls das nicht funktioniert hier die wichtigsten packages:

install.packages("tidyverse")
install.packages("rmarkdown")
install.packages("emojifont")
install.packages("fs")

Rest dann nach Bedarf aka wenn Fehler auftauchen.

Daten

  • Daten aus Google Drive runterladen und entzippen
  • in data/raw_data verschieben

Datenqualitätsreport

in der R Console:

rmarkdown::render("kommuki_datenqualitaet.Rmd")

oder kommuki_datenqualitaet.Rmd öffnen und auf den blauen knit Button mit dem Wollknäuel drücken.

Wie es funktioniert

  • in kommuki_qm.Rmd werden checks gefahren für jede Datei in raw data .
  • funktionen sind in functions.R
  • Zwischenergebnisse werden rausgeschrieben in data/results als json.
  • dann wird für jedes Excel ein Chunk geknittet (single_sheet.Rmd). hier wird dann das jeweilige JSON wieder eingelesen und die Ergebnisse werden dargestellt.

geht sicher effizienter und schöner, aber war in der Kürze der Zeit das, was funktioniert hat.

Datenbereinigungsskript

  1. daten_bereinigen.R öffnen und

Lizenz

Daten

License: CC BY 4.0

umfasst: alle Dateien in data

Datensatz Kommuki, Politik zum Anfassen e.V., lizensiert unter CC-BY 4.0.

Code

umfasst: alle Dateien außerhalb von data.

License: MIT

MIT Lizenz, CorrelAid e.V.

About

Dataset validation for Kommuki project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published