Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

배치 Build & Run 방식 공유 #7

Open
Re-st opened this issue Oct 14, 2023 · 1 comment
Open

배치 Build & Run 방식 공유 #7

Re-st opened this issue Oct 14, 2023 · 1 comment
Assignees

Comments

@Re-st
Copy link
Contributor

Re-st commented Oct 14, 2023

현재 Build & Run 목표는 아래와 같습니다.
목표: 후보자 목록, 당선인 목록, 현역 의원 목록, 다양성 지표를 선거 별로 관리합니다.
- 후보자 목록: 지방선거/보궐선거의 예비후보자 명부가 공개되면 중앙선거관리위원회 웹페이지를 크롤링해 후보자 목록을 생성합니다.
- 당선인 목록: 지방선거/보궐선거가 끝나면 중앙선거관리위원회 선거 결과 API를 사용해 당선인 목록을 생성합니다.
- 현역 의원 목록: 매일 전국 기초의회 웹사이트의 현역 의원 페이지를 크롤링해 기존 당선인 목록과 비교하고, 변경 사항을 기존 당선인 정보에 추가합니다.
- 다양성 지표: 현역 의원 목록이 바뀔 때마다 다양성 지표를 새롭게 계산합니다. 각 기초의회 별 다양성 지표와 16개 광역자치단체 다양성 지표, 전국 다양성 지표를 함께 계산합니다.

이를 위해서는 적당한 시기마다 '바뀐 게 있나' 체크해 보고 또 선거결과 나오는 날에는 관심이 집중될 것이므로 바로 업데이트가 되면 좋습니다.

  • 선것날을 미리 입력해서 그때마다 돌아가도록 할까요?
  • 시기는 한 하루에 한번이면 너무 많을까요?

이런 내용 말고 더 논의할게 있을지 찾아 주시겠어요? 회의 때까지 부탁합니다~

참고자료로 노션의 '1 멘토링', '1 피드백'을 발췌합니다.
Q
현재 데이터 수집 계획은 웹 크롤링을 사용한다 하더라도 지역 의회마다 맞추어서 손으로 직접 하는 방식에 가깝습니다. 의회 주소 별 세팅을 하고 변화를 크롤링으로 업데이트 하더라도 사이트 주소나 형식이 바뀌는 것은 손으로 대응을 해주어야 합니다. 이 문제를 자동화하거나 전자동화하지 못하더라도 적절한 대안이 없을지 질문 드리고 싶습니다.
A
batch job을? (한달단위? ) 돌려주는게 현실적이다..
예시) 구글: batch job을 통해 사이트들을 인덱싱하지만, 필요한 경우 직접 크롤링을 실행함

Q
배치 작업을 통해 주기적으로 크롤링할 때 사용할 수 있는 기술 (깃헙 actions와 같이 설정하기 쉽고, 성공 여부를 알 수 있는 서비스가 있을까요?
A
CRON 잡 스케쥴링의 경우, 주기적으로 계속 호출되어야 하기 때문에 일단은 서버에서 실행이되면 좋을것 같습니다. (CRON job scheduling 검색 참조)
Github Actions 로 가능한 작업이면 이걸 쓰는게 가장 간단할것 같습니다

@songc04
Copy link
Contributor

songc04 commented Oct 25, 2023

글로 적는게 늦어 죄송합니다.

  1. Batch job 실행은 답변 받은대로 저희 사이트 구조가 백엔드 API 서버를 따로 둘거라면 이쪽에서 일정 주기마다 interval 걸고 돌리면 큰 문제는 없을 것 같습니다. CRON도 가능하겠고 어떤 방식이던 구현이 간편한 쪽으로 짜보면서 진행해도 될 것 같습니다.
  2. 문제는 돌리는 건 어떤 식으로든 할 수 있습니다만 결과 조회와 이슈 대응이 빠르게 이루어져야 한다는 점이 문제인데 이 부분은 디스코드든 슬랙이든 뉴웨이즈 측에서 접근하기 편한 쪽으로 웹 훅을 걸어서 메신저로 쏘는게 가장 편하지 않을까 생각합니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: Todo
Development

No branches or pull requests

2 participants