这是一个Python的脚本,配置运行后可以从某些你指定的tumblr博客 下载图片和视频.
配置好你的Python环境,然后pip install requests xmltodict
.
或者
$ git clone https://github.com/dixudx/tumblr-crawler.git
$ cd tumblr-crawler
$ pip install -r requirements.txt
大功告成,直接跳到下一节配置和运行.
-
首先你需要一个Python的环境,安装方法请 参照这里.
-
安装
pip
(主要是希望通过pip
来安装Python的一些依赖包) -
下载tumblr-crawler并解压缩;
有两种方式来指定你要下载的站点,一是编辑sites.txt
,二是指定命令行参数.
找到一个文字编辑器,然后打开文件sites.txt
,把你想要下载的Tumblr站点编辑进去,以逗号分隔,不要有空格,不需要.tumblr.com
的后缀.例如,如果你要下载 vogue.tumblr.com and gucci.tumblr.com,这个文件看起来是这样的:
vogue,gucci
然后保存文件,双击运行tumblr-photo-video-ripper.py
或者在终端(terminal)里面
运行python tumblr-photo-video-ripper.py
如果你对Windows或者Unix系统的命令行很熟悉,你可以通过指定运行时的命令行参数来指定要下载的站点:
python tumblr-photo-video-ripper.py site1,site2
站点的名字以逗号分隔,不要有空格,不需要.tumblr.com
的后缀.
程序运行后,会默认在当前路径下面生成一个跟tumblr博客名字相同的文件夹, 照片和视频都会放在这个文件夹下面.
运行这个脚本,不会重复下载已经下载过的图片和视频,所以不用担心重复下载的问题.同时,多次运行可以 帮你找回丢失的或者删除的图片和视频.
如果不能够顺利访问和下载tumblr的内容,你应该配置一下代理.
文件格式参考./proxies_sample1.json
和./proxies_sample2.json
.
然后把你的代理信息用json的格式写入./proxies.json
.
你可以访问http://jsonlint.com/以确保你的格式是正确的.
如果文件./proxies.json
没有任何内容,下载过程中不会使用代理.
如果你是全局模式使用Shadowsocks做代理, 此时你的./proxies.json
文件可以写入如下内容,
{
"http": "socks5://127.0.0.1:1080",
"https": "socks5://127.0.0.1:1080"
}
然后重新运行下载命令.