Skip to content

tinotk/thuvienbao-truyen-scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ThuVienBao Truyện Scraper

ThuVienBao Truyện Scraper v1.22 BETA
Tool để lấy text và raw html từ các websites truyện phổ biến.

Supported sites:

  • http://truyencv.com/xxxxx/
  • https://truyenyy.com/truyen/xxxxx/
  • https://bachngocsach.com/reader/xxxxx
  • https://iread.vn/xxxxx/yyy
  • http://truyenfull.vn/xxxxx/
  • https://truyen.tangthuvien.vn/doc-truyen/xxxxx
  • http://truyencuatui.net/truyen/xxxxx.html
  • http://truyendich.com/xxxxx/
  • http://webtruyen.com/xxxxx/
  • https://wikidich.com/truyen/xxxxx
  • https://www.wattpad.com/story/xxxxx

Features:

  • Tự động check chương đã download và update chương mới.
  • Tự động lọc text rác bằng regular expression, có thể lọc được hầu hết text rác trừ những cái mới ra chưa update. Dự tính sẽ làm thêm 1 bộ custom regex để người dùng tự thêm.

Notes:

  • Lưu ý dành cho wattpad: Vì site này xài JavaScript & AJAX cho text nên HTTP GET thường không có lấy được nhé, thay vào đó phải xài qua ChromeDriver. Bạn cần download thêm ChromeDriver. Extract chromedriver.exe rồi copy vào C:\Windows. Muốn biết thêm chi tiết về ChromeDriver có thể vào homepage tại https://sites.google.com/a/chromium.org/chromedriver/. Khi chạy chương trình bạn sẽ thấy Chrome mở lên, cứ để cho nó chạy đừng có làm gì hết.

  • Tool đang còn beta nên sẽ có bug. Nhớ report dùm nhé.

Project Homepage:

Xin mời chư vị ủng hộ website ThuVienBao Audiobooks. Nghe truyện audio tiên hiệp, huyền huyễn, ngôn tình...

https://truyen.thuvienbao.com/