Re OCR resource

Publisere tekstene fra re-ocr-prosjektet.

Bøker fra 1800-1905 i nettbibloteket.

Publisere som

Alto
jsonlines (med dhlab metadata (urn, sidetall etc.)
txt filer

Kartlegge OCR feil

Vi ønsker å kartlegge hvor hvilke tekster som har mye OCR-feil og ta ut disse.

Strategi 1. Finne høyfrekvente OCR-feil -- måle frekvens i enkeltdokumenter Strategi 2. Undersøke hvilke dokumenter som har lav gjennomsnittsusikkert på tokens. Strategi 3. Undersøke gjennomsnittlig usikkerhet per token -- hypotese om at de med lavt gjennomsnitt er OCR feil

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
errors		errors
public_domain_info		public_domain_info
re_ocr_resource		re_ocr_resource
tests		tests
.gitignore		.gitignore
README.md		README.md
create_class.ipynb		create_class.ipynb
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Re OCR resource

Kartlegge OCR feil

About

Releases

Packages

Languages

tungland/re-ocr-resource

Folders and files

Latest commit

History

Repository files navigation

Re OCR resource

Kartlegge OCR feil

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages