refactor: Optimise metadata discovery for large databases #528

jamesmeneghello · 2024-11-04T04:11:44Z

Overrides the SDK functions to instead use the get_multi_* functions from SQLAlchemy Inspector. On our database of ~120 tables, this reduces the discovery runtime from 10-12 minutes to about 30 seconds.

Closes Discovery Performance #284

edgarrmondragon

Thanks for the PR @jamesmeneghello! I left some comments.

tap_postgres/client.py

jamesmeneghello · 2024-11-05T02:43:23Z

Fixed those and the issues from the CI run.

edgarrmondragon

Thanks @jamesmeneghello!

Related: - Reverts #528 - Closes #535 This reverts commit 9bb40d1.

Related: - Reverts #528 - #535 This reverts commit 9bb40d1.

edgarrmondragon · 2024-11-07T19:41:53Z

This seems to have broken at least stream maps (#535), so I reverted it in #536 until I can investigate and come up with a patch.

edgarrmondragon · 2024-12-03T04:11:55Z

tap_postgres/client.py

+        inspected = sa.inspect(engine)
+        for schema_name in self.get_schema_names(engine, inspected):
+            # Use get_multi_* data here instead of pulling per-table
+            table_data = inspected.get_multi_columns(schema=schema_name)


This ignores views, thus the regression. See https://github.com/meltano/sdk/pull/2793/files#r1867006461.

jamesmeneghello force-pushed the main branch 2 times, most recently from c641747 to 9109819 Compare November 4, 2024 04:21

edgarrmondragon reviewed Nov 4, 2024

View reviewed changes

tap_postgres/client.py Outdated Show resolved Hide resolved

tap_postgres/client.py Outdated Show resolved Hide resolved

tap_postgres/client.py Show resolved Hide resolved

edgarrmondragon changed the title ~~Optimise metadata discovery for large databases~~ refactor: Optimise metadata discovery for large databases Nov 4, 2024

edgarrmondragon self-assigned this Nov 4, 2024

edgarrmondragon self-requested a review November 4, 2024 18:18

edgarrmondragon added the enhancement New feature or request label Nov 4, 2024

jamesmeneghello force-pushed the main branch from 9109819 to 463b6ea Compare November 5, 2024 02:42

jamesmeneghello force-pushed the main branch from bf6d672 to 0e7ce70 Compare November 5, 2024 02:49

perf: optimise table metadata build

6f76da9

jamesmeneghello force-pushed the main branch from a373a15 to 6f76da9 Compare November 5, 2024 03:15

Merge branch 'main' into main

6617a7c

edgarrmondragon approved these changes Nov 5, 2024

View reviewed changes

edgarrmondragon merged commit 9bb40d1 into MeltanoLabs:main Nov 5, 2024
12 checks passed

edgarrmondragon mentioned this pull request Nov 5, 2024

Discovery performance meltano/sdk#2166

Closed

edgarrmondragon added a commit that referenced this pull request Nov 6, 2024

revert: Optimise metadata discovery for large databases

800a133

Related: - Reverts #528 - Closes #535 This reverts commit 9bb40d1.

edgarrmondragon mentioned this pull request Nov 6, 2024

revert: Optimise metadata discovery for large databases #536

Merged

edgarrmondragon added a commit that referenced this pull request Nov 7, 2024

revert: Optimise metadata discovery for large databases (#536)

c436267

Related: - Reverts #528 - #535 This reverts commit 9bb40d1.

edgarrmondragon mentioned this pull request Dec 3, 2024

perf(taps): Improved discovery performance for SQL taps meltano/sdk#2793

Merged

3 tasks

edgarrmondragon reviewed Dec 3, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

refactor: Optimise metadata discovery for large databases #528

refactor: Optimise metadata discovery for large databases #528

jamesmeneghello commented Nov 4, 2024 •

edited by edgarrmondragon

Loading

edgarrmondragon left a comment

jamesmeneghello commented Nov 5, 2024

edgarrmondragon left a comment

edgarrmondragon commented Nov 7, 2024 •

edited

Loading

edgarrmondragon Dec 3, 2024

refactor: Optimise metadata discovery for large databases #528

refactor: Optimise metadata discovery for large databases #528

Conversation

jamesmeneghello commented Nov 4, 2024 • edited by edgarrmondragon Loading

edgarrmondragon left a comment

Choose a reason for hiding this comment

jamesmeneghello commented Nov 5, 2024

edgarrmondragon left a comment

Choose a reason for hiding this comment

edgarrmondragon commented Nov 7, 2024 • edited Loading

edgarrmondragon Dec 3, 2024

Choose a reason for hiding this comment

jamesmeneghello commented Nov 4, 2024 •

edited by edgarrmondragon

Loading

edgarrmondragon commented Nov 7, 2024 •

edited

Loading