iNews-Pipeline

Implementierung einer Dokumenten-Pipeline für Nachrichtenartikel

Zur grafischen Einführung bitte unsere Präsentation anschauen.

=> Hier ein Überblick über die Virtuelle Maschine und die laufenden Dienste.

1. Crawler

Aufgaben:

Regelmäßig ausgewählte News-Seiten nach neuen Artikeln durchsuchen (crawling)
Ausgewählte Metadaten und Inhalte der Artikel extrahieren und in eine Datenbank schreiben (scraping)

Für die folgenden News-Seiten wurden sog. Spiders umgesetzt:

taz
Süddeutsche Zeitung
Heise
Golem (WiSe 20/21)
Postillon (WiSe 20/21)

Technologien:

geschrieben in Python.

=> Repository/Readme

2. Analyse

Technologien:

Aufgaben:

gescrapte Artikel analysieren hinsichtlich:
- Sentiment Analysis
- Named Entity Recognition (details siehe Readme)
- Generierte Textzusammenfassung basierend auf extrahierten Keywords
- Lesezeit
- relevanteste Wörter bzw. Objekte (Yake)
- Lemmas
- Zuordnung eines oder mehrerer Departments

geschrieben in Scala

Mögliche Verbesserungen

Performanceverbesserung hinsichtlich des Preprocessings
Textzusammenfassung komplexer gestalten
Vergleich verschiedener Textzusammenfassungsalgorithmen (Yake vs. TF-IDF)
Kategorien der Named-Entity-Recognition im FrontEnd visualisieren
Speicherkonzept in der Datenbank überdenken

=> Repository/Readme

3. mongoDB

Dokumentenbasierte NoSQL Datenbank
Basiert quasi auf JSON-Dokumenten
unser zentraler Datenspeicher, hält die Daten der Scraper und der UIMA-Pipeline

4. ElasticSearch

Auf JSON basierende Suchmaschine
nutzt JSON für Anfragen und Antworten
Teil des Elastic Stacks
Stellt die Suchfunktion bereit

=> ElasticSearch im Projekt

=> Repository selbstgeschriebener Connector

=> Systemd service file for elasticsearch

5. HTTP-API

Aufgaben:

Zeitungsartikel nach außen sichtbar machen
Userverwaltung
Artikelvorschläge für User generieren
Autorendaten nach außen sichtbar machen
Analytics aggregieren
Elasticsearch-Abfragen (suchen, filtern und aggregieren)
HTTP-Anfragen (GET, POST, PUT, DELETE) bearbeiten
Antwort mit JSON-Daten

geschrieben in Scala mit der Akka-Library

=> Repository/Readme

Mögliche Verbesserungen

Autorendaten aggregieren (ebenfalls mittels Elasticsearch)
Artikelvorschläge basierend auf dem Leseverhalten des Users optimieren
Artikel (und Autoren) bezüglich Sentiments filtern

6. Frontend

mit ReactJS geschrieben

2011 innerhalb von Facebook entwickelt
Komponenten
State und Props
Virtual DOM

und folgenden Libraries:

=> Frontend im Projekt

=> Repository/Readme

=> nginx config file

Mögliche Verbesserungen

HTTPS einrichten
Vereinheitlichung der HTTP-Anfragen (fetch / axios)

7. Autoren

Technologien:

Aufgaben:

die Autoren der verarbeiteten Artikel aus der NLP Pipeline analysieren

aktuell:

anzahl der Artikel pro Tag je Autor
anzahl der Artikel pro Kategorie je Autor
anzahl der Artikel pro Website je Autor
durchschnittliches Sentiment pro Tag
durchschnittliches Sentiment pro Kategorie
anzahl der Wörter für die letzten fünf Artikel
trust score

geschrieben in Scala

Mögliche Verbesserungen

komplexere Berechnung des Trust Scores
komplexere Analysen:
- Welche Autoren schreiben häufig zusammen?
- Schreiben die Autorenpaare gewöhnlicherweise in der gleichen Kategorie?
- Haben die Paare ähnliche Lücken in der nichts geschrieben wurde?
- Hebt sich Sentiment oder Wortanzahl wenn die Autoren zusammen schreiben, oder senkt sie sich sogar?
- Wann schreibt der Autor (Veröffentlichungsdatum != Verfassungsdatum)

Bei weiteren Anreizen empfiehlt es sich das Video zum SpiegelMining anzusehen

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
FinalePraesentation31_01_2020.pdf		FinalePraesentation31_01_2020.pdf
I News.png		I News.png
Projektstudium_Praesentation_ws2021.pdf		Projektstudium_Praesentation_ws2021.pdf
README.md		README.md
pipline_grafik.png		pipline_grafik.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

iNews-Pipeline

1. Crawler

=> Repository/Readme

2. Analyse

Mögliche Verbesserungen

=> Repository/Readme

3. mongoDB

4. ElasticSearch

=> ElasticSearch im Projekt

=> Repository selbstgeschriebener Connector

=> Systemd service file for elasticsearch

5. HTTP-API

=> Repository/Readme

Mögliche Verbesserungen

6. Frontend

=> Frontend im Projekt

=> Repository/Readme

=> nginx config file

Mögliche Verbesserungen

7. Autoren

Mögliche Verbesserungen

=> Repository/Readme

About

Releases

Packages

news-document-pipeline-htw-berlin/wiki

Folders and files

Latest commit

History

Repository files navigation

iNews-Pipeline

1. Crawler

2. Analyse

Mögliche Verbesserungen

3. mongoDB

4. ElasticSearch

5. HTTP-API

Mögliche Verbesserungen

6. Frontend

Mögliche Verbesserungen

7. Autoren

Mögliche Verbesserungen

About

Resources

Stars

Watchers

Forks