You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
현재 Build & Run 목표는 아래와 같습니다.
목표: 후보자 목록, 당선인 목록, 현역 의원 목록, 다양성 지표를 선거 별로 관리합니다.
- 후보자 목록: 지방선거/보궐선거의 예비후보자 명부가 공개되면 중앙선거관리위원회 웹페이지를 크롤링해 후보자 목록을 생성합니다.
- 당선인 목록: 지방선거/보궐선거가 끝나면 중앙선거관리위원회 선거 결과 API를 사용해 당선인 목록을 생성합니다.
- 현역 의원 목록: 매일 전국 기초의회 웹사이트의 현역 의원 페이지를 크롤링해 기존 당선인 목록과 비교하고, 변경 사항을 기존 당선인 정보에 추가합니다.
- 다양성 지표: 현역 의원 목록이 바뀔 때마다 다양성 지표를 새롭게 계산합니다. 각 기초의회 별 다양성 지표와 16개 광역자치단체 다양성 지표, 전국 다양성 지표를 함께 계산합니다.
이를 위해서는 적당한 시기마다 '바뀐 게 있나' 체크해 보고 또 선거결과 나오는 날에는 관심이 집중될 것이므로 바로 업데이트가 되면 좋습니다.
선것날을 미리 입력해서 그때마다 돌아가도록 할까요?
시기는 한 하루에 한번이면 너무 많을까요?
이런 내용 말고 더 논의할게 있을지 찾아 주시겠어요? 회의 때까지 부탁합니다~
참고자료로 노션의 '1 멘토링', '1 피드백'을 발췌합니다.
Q
현재 데이터 수집 계획은 웹 크롤링을 사용한다 하더라도 지역 의회마다 맞추어서 손으로 직접 하는 방식에 가깝습니다. 의회 주소 별 세팅을 하고 변화를 크롤링으로 업데이트 하더라도 사이트 주소나 형식이 바뀌는 것은 손으로 대응을 해주어야 합니다. 이 문제를 자동화하거나 전자동화하지 못하더라도 적절한 대안이 없을지 질문 드리고 싶습니다.
A
batch job을? (한달단위? ) 돌려주는게 현실적이다..
예시) 구글: batch job을 통해 사이트들을 인덱싱하지만, 필요한 경우 직접 크롤링을 실행함
Q
배치 작업을 통해 주기적으로 크롤링할 때 사용할 수 있는 기술 (깃헙 actions와 같이 설정하기 쉽고, 성공 여부를 알 수 있는 서비스가 있을까요?
A
CRON 잡 스케쥴링의 경우, 주기적으로 계속 호출되어야 하기 때문에 일단은 서버에서 실행이되면 좋을것 같습니다. (CRON job scheduling 검색 참조)
Github Actions 로 가능한 작업이면 이걸 쓰는게 가장 간단할것 같습니다
The text was updated successfully, but these errors were encountered:
현재 Build & Run 목표는 아래와 같습니다.
목표: 후보자 목록, 당선인 목록, 현역 의원 목록, 다양성 지표를 선거 별로 관리합니다.
- 후보자 목록: 지방선거/보궐선거의 예비후보자 명부가 공개되면 중앙선거관리위원회 웹페이지를 크롤링해 후보자 목록을 생성합니다.
- 당선인 목록: 지방선거/보궐선거가 끝나면 중앙선거관리위원회 선거 결과 API를 사용해 당선인 목록을 생성합니다.
- 현역 의원 목록: 매일 전국 기초의회 웹사이트의 현역 의원 페이지를 크롤링해 기존 당선인 목록과 비교하고, 변경 사항을 기존 당선인 정보에 추가합니다.
- 다양성 지표: 현역 의원 목록이 바뀔 때마다 다양성 지표를 새롭게 계산합니다. 각 기초의회 별 다양성 지표와 16개 광역자치단체 다양성 지표, 전국 다양성 지표를 함께 계산합니다.
이를 위해서는 적당한 시기마다 '바뀐 게 있나' 체크해 보고 또 선거결과 나오는 날에는 관심이 집중될 것이므로 바로 업데이트가 되면 좋습니다.
이런 내용 말고 더 논의할게 있을지 찾아 주시겠어요? 회의 때까지 부탁합니다~
참고자료로 노션의 '1 멘토링', '1 피드백'을 발췌합니다.
Q
현재 데이터 수집 계획은 웹 크롤링을 사용한다 하더라도 지역 의회마다 맞추어서 손으로 직접 하는 방식에 가깝습니다. 의회 주소 별 세팅을 하고 변화를 크롤링으로 업데이트 하더라도 사이트 주소나 형식이 바뀌는 것은 손으로 대응을 해주어야 합니다. 이 문제를 자동화하거나 전자동화하지 못하더라도 적절한 대안이 없을지 질문 드리고 싶습니다.
A
batch job을? (한달단위? ) 돌려주는게 현실적이다..
예시) 구글: batch job을 통해 사이트들을 인덱싱하지만, 필요한 경우 직접 크롤링을 실행함
Q
배치 작업을 통해 주기적으로 크롤링할 때 사용할 수 있는 기술 (깃헙 actions와 같이 설정하기 쉽고, 성공 여부를 알 수 있는 서비스가 있을까요?
A
CRON 잡 스케쥴링의 경우, 주기적으로 계속 호출되어야 하기 때문에 일단은 서버에서 실행이되면 좋을것 같습니다. (CRON job scheduling 검색 참조)
Github Actions 로 가능한 작업이면 이걸 쓰는게 가장 간단할것 같습니다
The text was updated successfully, but these errors were encountered: