A lot of memory used on newspaper pages? #110

mikegerber · 2024-02-22T19:16:08Z

In OCR-D/quiver-benchmarks#22, @stweil mentions 118 GB being used for newspaper pages.

Reproduce
Can we test for this somehow

mikegerber · 2024-02-22T19:23:17Z

Might have overlooked this because a. our servers have a lot of memory and b. I didn't process a lot of newspapers.

I asked @stweil for the input data. Need to check if I have some newspaper pages readily segmented.
Options used seem to be -I OCR-D-SEG-LINE-RESEG-DEWARP -O OCR-D-OCR -P checkpoint_dir qurator-gt4histocr-1.0"

mikegerber · 2024-02-28T17:18:23Z

I don't have the data for the issue mentioned in OCR-D/quiver-benchmarks#22, tried to produce something similar but failed due to an unrelated issue.

→ Trying with some other data supplied by @cneud

mikegerber · 2024-02-28T20:30:22Z

Yeah, ran into another unrelated issue first: OCR-D/core#1179

mikegerber · 2024-02-28T20:59:33Z

The page I used only had 365 lines, didn't see anything more than 1.8 GB RSS ("not great, not terrible").

There is something else wrong, though, it seems to use the raw (RGB) images for some lines, this does not make sense. But the XML may be not be 100% as I imported it etc. pp.

mikegerber · 2024-03-05T18:48:33Z

There is something else wrong, though, it seems to use the raw (RGB) images for some lines, this does not make sense. But the XML may be not be 100% as I imported it etc. pp.

The workspace also showed signs of OCR-D/core#1195, so I'll try again first, with METS caching disabled.

mikegerber · 2024-03-05T19:11:28Z

I've redone the segmentation, no "raw image" problem anymore. Probably just because I couldn't figure out how to fix up the XML so i works properly with the AlternativeImage logic

mikegerber self-assigned this Feb 22, 2024

mikegerber added the bug Something isn't working label Feb 22, 2024

mikegerber changed the title ~~A lot of memory used on newspaper pages~~ A lot of memory used on newspaper pages? Feb 27, 2024

mikegerber mentioned this issue Feb 28, 2024

Benchmark workflows "selected_pages_ocr" do not produce text results OCR-D/quiver-benchmarks#22

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

A lot of memory used on newspaper pages? #110

A lot of memory used on newspaper pages? #110

mikegerber commented Feb 22, 2024 •

edited

Loading

mikegerber commented Feb 22, 2024

mikegerber commented Feb 28, 2024

mikegerber commented Feb 28, 2024

mikegerber commented Feb 28, 2024

mikegerber commented Mar 5, 2024

mikegerber commented Mar 5, 2024

A lot of memory used on newspaper pages? #110

A lot of memory used on newspaper pages? #110

Comments

mikegerber commented Feb 22, 2024 • edited Loading

mikegerber commented Feb 22, 2024

mikegerber commented Feb 28, 2024

mikegerber commented Feb 28, 2024

mikegerber commented Feb 28, 2024

mikegerber commented Mar 5, 2024

mikegerber commented Mar 5, 2024

mikegerber commented Feb 22, 2024 •

edited

Loading