Shaman.Scraping

A library for scraping websites and reading/writing WARC files.

Reading a CDX/WARC file

var items = WarcItem.ReadIndex("path/to/index.cdx");
Stream firstResponseBody = items[0].OpenStream();

WebsiteScraper

Generic implementation of a scraper. Configurable with ShouldCrawl, Parallelism, Cookies, CollectAdditionalLinks.

using(var scraper = new WebsiteScraper())
{
    scraper.ShouldScrape = (url, prereq) =>
    {
        if (prereq) return true;
        if (
            url.Host == scraper.FirstAddedUrl.Host && 
            url.Path.StartsWith("/example") &&
            url.HasNoQueryParameters()
            ) return true;

        return false;
    }
}

RedditScraper

Scrapes a subreddit.

FacebookScraper

Scrapes the content of a Facebook page or a group.

WikiScraper

Scraper optimized for MediaWiki sites.

Command line arguments

When run as a console app (as opposed to a library), the following parameters are supported:

--make-cdx [path-to-folder]: Generates index.cdx
--website-cookies <cookies>: Cookies to use
--facebook-page <name>: Scrapes a facebook page

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
Shaman.Scraping		Shaman.Scraping
.gitignore		.gitignore
NuGet.Config		NuGet.Config
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Shaman.Scraping

Reading a CDX/WARC file

WebsiteScraper

RedditScraper

FacebookScraper

WikiScraper

Command line arguments

About

Releases

Packages

Languages

portseif/Shaman.Scraping

Folders and files

Latest commit

History

Repository files navigation

Shaman.Scraping

Reading a CDX/WARC file

WebsiteScraper

RedditScraper

FacebookScraper

WikiScraper

Command line arguments

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages