Skip to content

tungland/re-ocr-resource

Repository files navigation

Re OCR resource

Publisere tekstene fra re-ocr-prosjektet.

Bøker fra 1800-1905 i nettbibloteket.

Publisere som

  1. Alto
  2. jsonlines (med dhlab metadata (urn, sidetall etc.)
  3. txt filer

Kartlegge OCR feil

Vi ønsker å kartlegge hvor hvilke tekster som har mye OCR-feil og ta ut disse.

Strategi 1. Finne høyfrekvente OCR-feil -- måle frekvens i enkeltdokumenter Strategi 2. Undersøke hvilke dokumenter som har lav gjennomsnittsusikkert på tokens. Strategi 3. Undersøke gjennomsnittlig usikkerhet per token -- hypotese om at de med lavt gjennomsnitt er OCR feil

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published