Skip to content
This repository has been archived by the owner on Sep 30, 2022. It is now read-only.

Commit

Permalink
Merge pull request #73 from knmlprz/presentation-api-usage
Browse files Browse the repository at this point in the history
Describe API usage
  • Loading branch information
finloop authored Sep 5, 2021
2 parents 15c4ab8 + 45bc8c2 commit 2d3b324
Show file tree
Hide file tree
Showing 2 changed files with 37 additions and 6 deletions.
Binary file added img/zar.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
43 changes: 37 additions & 6 deletions presentation.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,14 +12,18 @@ fonttheme: professionalfonts

# O nas

::: notes
Jesteśmy studentami Politechniki Rzeszowskiej na kierunku Inżynieria i analiza
danych, a także członkami nowo stworzonego koła uczenia maszynowego. Chcemy
pokazać to, co udało nam się odkryć w trakcie realizacji pierwszego Hackathonu
realizowanego w naszym kole, a dotyczył on pandemii.
:::

[//]: # (Dodać logo koła naukowego)

# Nasz cel

::: notes
Naszym celem było znalezienie, reguł asocjacyjnych i ciekawych zależności w
danych z zachorwań, które docelowo miały nam posłużyć do lepszego zrozumienia
sposobu rozprzestrzeniania się koronawirusa SARS-COV-2 i przewidywania ilości
Expand All @@ -28,17 +32,19 @@ zachorowań.
Pokażemy, w jaki sposób pracowaliśmy, jakich technik używaliśmy i jak zdobyliśmy
dane, których używaliśmy. Mamy nadzieję, że są wśród was studenci, których
zainteresujemy naszą pracą i dołączą do naszego koła naukowego.
:::

# Dane

::: notes
Jeszcze, gdy zaczynaliśmy, liczba zachorowań nie przekraczała 500 osób
dziennie (był to okres od marca do maja 2020), wtedy kolejnymi falami określano
niewielkie z perspektywy czasu wzrosty zakażeń.

![Tutaj będzie wykres zakażeń z marca 2020](img/obrazek.png)
:::

# Jak znaleźć źródła danych?

::: notes
To było pierwszym pytanie, jakie zadaliśmy sobie w naszym projekcie. Szczególnie
na początku pandemii dostęp do szczegółowych danych nie był tak prosty. Powodów
było kilka:
Expand All @@ -49,9 +55,11 @@ było kilka:

A szczególnie interesowały nas dane z podziałem na województwa, ewentualnie na
jeszcze mniejsze jednostki podziału terytorialnego.
:::

# Źródła danych

::: notes
Na szczęście udało nam się znaleźć inne źródła, tj. strony tworzone przez ludzi,
którzy codziennie sami zbierali te dane i udostępniali je w formie wykresów.
Przykładem takiej strony jest <koronawirusunas.pl>. Dzięki uprzejmości jej
Expand All @@ -63,14 +71,34 @@ Do głównych źródeł danych zaliczyć możemy:
- IHME
- koronawirusunas.pl
- policja.pl

:::

# Techniki zbierania danych

Główną techniką wykorzystywaną przez nas wył web scraping, stworzyliśmy skrypty,
::: notes
Główną techniką wykorzystywaną przez nas był web scraping, stworzyliśmy skrypty,
które (oczywiście za zgodą właścicieli portali) pobierały z nich bieżące dane. Z
kolei pozostałe dane były udostępnione publicznie w formie skompresowanych
plików, także aktualizowanych codziennie.
:::

## Dostęp do API

::: notes
Część danych była dostępna bezpośrednio z API, tzn. wysyłając zapytanie do
strony otrzymywaliśmy dane gotowe do przyjęcia przez program. Była to
sytuacja o tyle prostsza od scrapingu, że nie musieliśmy dodatkowo przetwarzać
tych danych.

Wśród danych dostępnych przez API były dane pogodowe, jednak bardzo ułatwiało
to pracę.

Niestety w tym roku Meteostat zaktualizował API do wersji drugiej, która jest
zupełnie niekompatybilna z poprzednią. Z tego powodu nasz kod bez drognych
modyfikacji nie działa aktualnie, a z braku czasu jeszcze go nie naprawiliśmy.
Wszystkie analizy oparte są na danych, które zapisaliśmy w trakcie pierwotnego
pisania.
:::

## Użycie API

Expand All @@ -94,25 +122,28 @@ cała aglomeracja przewyższa populacją Warszawę.

# Jak pracowaliśmy z danymi

::: notes
Te dane musiały zostac sprowadzone do wspólnego formatu, tak aby wszystkie
stworzone wykresy i analizy można było odtwarzać natychmiast po aktualizacji
danych, ponieważ te zmieniały się z dnia na dzień wraz z rozwojem pandemii. Do
tego wykorzystaliśmy pythona i Jupyterlab.
:::

# Jak pracowaliśmy z danymi

::: notes
Z pomoca jupyterlab można stworzyć interaktywne notatniki, które działają krok
po kroku, jeden z nich służył wyłącznie do pobrania danych ze wszystkich źródeł
ich oczyszczenia i sprowadzenia do wspólnego formatu. Same analizy znalazły się
w osobnym notatniku, co umożliwiło nam zapanowanie nad projektem. Oczywiście
korzystanie z notatników też ma swoje wady, kolejne zmiany utrzymywane w
systemie kontroli wersji Git nie są czytalne.
:::

![Wykres zarażeń województwa + Polska](img/zar.png)


# Wnioski

## Czego się nauczyliśmy z tej analizy?

## Co innego zyskaliśmy?
## Co innego zyskaliśmy?

0 comments on commit 2d3b324

Please sign in to comment.