Skip to content

Latest commit

 

History

History
22 lines (18 loc) · 1.72 KB

README.md

File metadata and controls

22 lines (18 loc) · 1.72 KB

gaebyeok-scraper

『개벽(開闢)』 전문 스크래퍼 v.0.3

개요

URL 규칙

  • http://db.history.go.kr/item/level.do?sort=levelId&dir=ASC&start=4&limit=77&page=1&pre_page=0&setId=-1&totalCount=0&prevPage=4&prevLimit=&itemId=ma&types=&synonym=off&chinessChar=on&brokerPagingInfo=&levelId=ma_013_' + 호(volume) 넘버 4자리_텍스트 넘버 4자리
    • 개벽 제28호는 1부, 2부로 나뉘며, 호 넘버도 각각 271, 272이므로 별도 처리함.
    • 호 처음에 실린 글은 텍스트 넘버가 0 또는 1인 경우가 있으니 별도 처리함.
    • 호 마지막에 실린 사고·편집후기는 텍스트 넘버 끝자리가 1인 경우가 있으니 별도 처리함.
  • div 태그의 #cont_view에 본문 삽입됨.
  • metadata는 tbody > tr > td 안에 있고, tbody는 4개의 tr(순서대로 잡지명, 발행일, 기사제목, 기사형태)을 가짐
    • metadata가 잡지명, 발행일, 기사제목, 필자, 기사형태의 다섯 요소를 갖는 경우도 있으므로, 이에 대한 대처가 필요함. (v0.3)

참고

  • connection reset by peer error가 뜰 경우, 적당히 time.sleep(round(random.uniform(3, 5), 2)) 삽입 요망.

데이터 미리 보기

image