Skip to content

데이터 카탈로그 벡터 DB화 정보 추가 #12

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
YuujinHwang opened this issue Mar 10, 2025 · 3 comments
Open

데이터 카탈로그 벡터 DB화 정보 추가 #12

YuujinHwang opened this issue Mar 10, 2025 · 3 comments
Labels
datahub The integration point that retrieves metadata from DataHub to provide better context for query gener enhancement New feature or request

Comments

@YuujinHwang
Copy link

YuujinHwang commented Mar 10, 2025

Why ❓

문제점 👿:

Datahub에서 FAISS로 가져오는 테이블에 대한 Meta Description이 복잡한 집계를 수행하거나,
데이터를 시각화 하기에 충분하지 않음.

e.g.)
Null 포함된 Column에 대하여 SUM(...) GROUP BY (..) 진행 시 집계 불가
"200101"과 같이 VARCHAR type으로 저장된 데이터에 대응 불가

#5 #10 에서 언급된 Issue의 연속입니다.

How 🤔

해결 방안 ✅:

Datahub 내의 Table Profiling 결과를 함께 캐싱하여, 테이블 내 Column에 대한 의미론적 정보를 확보합니다.

  • Numeric, Categorical, Datetime 등의 타입 정보
  • Distinct, Null count, Min-Max 등의 데이터 특성

기대 효과 🚩 :

  • Group, Order에 사용가능한 Column에 대한 후보군을 제시 + Aggregation이 적용되는 Column에 적합한 함수사용
  • 시각화 연동 시 쿼리 결과에 따라 생성가능한 차트 유형 마스킹 및 최적의 차트 유형 선정

@YuujinHwang YuujinHwang changed the title DDL Cash 데이터 카탈로그 벡터 DB화 정보 추가 Mar 10, 2025
@ehddnr301
Copy link
Collaborator

Datahub에서 description만 가지고 오고 있는데 type, 데이터 를 고려하지않으면 쿼리가 fail날것, 데이터 특성도 가져갈수있으면 좋을것 (Stat)

@ehddnr301
Copy link
Collaborator

경태님: Datahub에 데이터를 넣는걸 주기적으로 했는데 하나의 테이블이 몇억 ~ 몇십억건을 넣는게 부하가 걸리더라구요
애초에 description와 comment만 가져옴

@ehddnr301 ehddnr301 added datahub The integration point that retrieves metadata from DataHub to provide better context for query gener enhancement New feature or request labels Mar 11, 2025
@ParkGyeongTae
Copy link
Contributor

질문을 던졌을 때 이 이슈처럼 의미론적 정보와 조합해서 쿼리를 만들어 준다면 더 잘 만들어줄 것 같습니다..!!
다만 상용 DB에 직접 조회시 테이블이 엄청 큰 경우 부하가 걸리는 경우가 있어서 테스트는 해봐야될 것 같습니다!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
datahub The integration point that retrieves metadata from DataHub to provide better context for query gener enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

3 participants