Skip to content

如何使用SpiderListener ? #387

Open
@anyonghua

Description

@anyonghua

先上代码

// 保存抓取状态
final Integer[] crawlStatus = {0};

List<SpiderListener> listener = new ArrayList<SpiderListener>();
listener.add(new SpiderListener(){

    public void onSuccess(Request request) {
        crawlStatus[0] = (Integer) request.getExtra(Request.STATUS_CODE);               
    }

    public void onError(Request request) {
        crawlStatus[0] = (Integer) request.getExtra(Request.STATUS_CODE);
    }

});

spider.setSpiderListeners(listener);

// 抓取当前网页
spider.test(target);

发现抓取的目标网址不存在时,确实能返回404,但是正常成功抓取时 却没有返回200,或者在一些其他异常 比如域名不存在时,也没有status_code返回。

请问是SpiderListener 使用方式不对 还是Webmagic就是这么设计的?

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions