PDF Processing - German Dissertations

Tried different approaches to text extraction from PDF files. Yolov5 trained on DocLayNet dataset was giving the best results.

Processing took 926.5365602970123 seconds, for 25 (minfied) PDF and 1068 Pages. -> ~ 0,87 Seconds/Page

pip install -r requirements.txt
python src/main.py

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
models/yolov5m		models/yolov5m
pdf-data		pdf-data
pdfplumber-output-xtolerance-1.5-doclaynet-with-mergeing		pdfplumber-output-xtolerance-1.5-doclaynet-with-mergeing
src		src
README.md		README.md
requirements.txt		requirements.txt

Provide feedback