Publisere tekstene fra re-ocr-prosjektet.
Bøker fra 1800-1905 i nettbibloteket.
Publisere som
- Alto
- jsonlines (med dhlab metadata (urn, sidetall etc.)
- txt filer
Vi ønsker å kartlegge hvor hvilke tekster som har mye OCR-feil og ta ut disse.
Strategi 1. Finne høyfrekvente OCR-feil -- måle frekvens i enkeltdokumenter Strategi 2. Undersøke hvilke dokumenter som har lav gjennomsnittsusikkert på tokens. Strategi 3. Undersøke gjennomsnittlig usikkerhet per token -- hypotese om at de med lavt gjennomsnitt er OCR feil