Skip to content

Latest commit

 

History

History
42 lines (32 loc) · 852 Bytes

README.md

File metadata and controls

42 lines (32 loc) · 852 Bytes

naver_news_crawler

Notes

  • BeautifulSoup을 활용한 네이버 뉴스 크롤링

  • 안티크롤링 해결 및 기사내용 전처리 추가

  • CSV(utf-8) 형태로 수집된 파일 도출

How to use

  • 제목 및 기사의 원본 수집
    python main.py
    
  • 정제된 제목 및 기사 수집
    python main.py --clean
    

Results

  • 검색 조건 입력

    ex_screenshot

  • 크롤링 결과

    python main.py
    

    ex_screenshot

    python main.py --clean
    

    ex_screenshot

reference