新浪微博爬虫,采用Java语言开发,基于HTTPClient 4.0,采用MySQL存储爬取数据,支持多进程并发执行。功能包括:爬取微博、评论、转发、关注列表(层次)。根据数据需求,持续更新...
代码基本结构和实现思路介绍,请参见本人博客:基于HttpClient4.0的网络爬虫基本框架(Java实现)
新浪微博爬虫,采用Java语言开发,基于HTTPClient 4.0,采用MySQL存储爬取数据,支持多进程并发执行。功能包括:爬取微博、评论、转发、关注列表(层次)。根据数据需求,持续更新...
代码基本结构和实现思路介绍,请参见本人博客:基于HttpClient4.0的网络爬虫基本框架(Java实现)