-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathcrawl.go
410 lines (351 loc) · 12 KB
/
crawl.go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
package main
import (
"context"
"encoding/json"
"fmt"
"log"
"net/http"
"net/url"
"strings"
"sync"
"time"
"github.com/PuerkitoBio/goquery"
"github.com/chromedp/cdproto/cdp"
"github.com/chromedp/cdproto/fetch"
"github.com/chromedp/cdproto/network"
"github.com/chromedp/cdproto/page"
"github.com/chromedp/cdproto/runtime"
"github.com/chromedp/cdproto/target"
"github.com/chromedp/chromedp"
)
const bindingName = "sendLink"
type bindingPayload struct {
URL string `json:"url"`
Source string `json:"source"`
}
var mu sync.Mutex
var stored []string
func contains(s []string, e string) bool {
exists := false
for _, a := range s {
if a == e {
exists = true
break
}
}
return exists
}
func initBrowser(conf map[string]interface{}) (context.Context, context.CancelFunc) {
opts := append(chromedp.DefaultExecAllocatorOptions[:],
chromedp.Flag("headless", !conf["mode"].(bool)),
)
// 设置 chromium 可执行文件路径
if conf["chromiumPath"].(string) != "" {
opts = append(opts, chromedp.ExecPath(conf["chromiumPath"].(string)))
}
allocCtx, cancel := chromedp.NewExecAllocator(context.Background(), opts...)
return allocCtx, cancel
}
func runTab(num int, reqC chan request, rstC chan<- request, tctx context.Context, conf map[string]interface{}) {
for req := range reqC {
var ctx context.Context = tctx
var cancel context.CancelFunc
if num > 1 {
// 非第一个标签页通过继承第一个标签页创建
ctx, cancel = chromedp.NewContext(tctx)
}
var wg sync.WaitGroup
var requestID network.RequestID
var topFrameID cdp.FrameID
chromedp.ListenTarget(ctx, func(ev interface{}) {
switch ev := ev.(type) {
case *network.EventRequestWillBeSent:
// 即将发送 HTTP 请求
wg.Add(1)
go func() {
defer wg.Done()
if ev.RequestID.String() == ev.LoaderID.String() && ev.Type.String() == "Document" {
// 顶层框架导航、点击链接(当前页面)和 location.href 赋值导航
requestID = ev.RequestID
topFrameID = ev.FrameID
}
// 获取后端重定向响应里可能的链接
if ev.RedirectHasExtraInfo {
client := &http.Client{
// 不要跟随跳转
CheckRedirect: func(req *http.Request, via []*http.Request) error {
return http.ErrUseLastResponse
},
}
req, _ := http.NewRequest(http.MethodGet, ev.RedirectResponse.URL, nil)
for name, value := range ev.Request.Headers {
req.Header.Set(name, value.(string))
}
res, err := client.Do(req)
if err != nil {
log.Println("request error: ", err)
return
}
defer res.Body.Close()
// 加载 html 文档
doc, err := goquery.NewDocumentFromReader(res.Body)
if err != nil {
log.Println("load doc error: ", err)
return
}
// 找出文档里链接并保存
doc.Find("a").Each(func(i int, s *goquery.Selection) {
link, exists := s.Attr("href")
if exists {
base, _ := url.Parse(ev.RedirectResponse.URL)
relLink, _ := url.Parse(link)
absLink := base.ResolveReference(relLink)
newReq := geneRequest("GET", absLink.String(), ev.Request.Headers, "", "redirect")
if checkReq(newReq) {
rstC <- newReq
mu.Lock()
if !contains(stored, "GET"+newReq.URL) {
stored = append(stored, "GET"+newReq.URL)
reqC <- newReq
}
mu.Unlock()
}
}
})
}
}()
case *fetch.EventRequestPaused:
// 拦截请求
wg.Add(1)
go func() {
defer wg.Done()
// 获取目标(标签页)执行上下文
c := chromedp.FromContext(ctx)
targetCtx := cdp.WithExecutor(ctx, c.Target)
// 获取请求数据
var postData string
if ev.Request.HasPostData {
postData = ev.Request.PostData
}
method := ev.Request.Method
pausedURL := ev.Request.URL
headers := ev.Request.Headers
resourceType := ev.ResourceType.String()
pausedRequestID := ev.RequestID
// 丢弃不影响 DOM 结构的静态资源下载请求,如:图片和字体等
// 但记录动态加载的静态资源
failResourceTypeList := []string{"Image", "Media", "Font", "TextTrack", "Prefetch", "Manifest", "SignedExchange", "Ping", "CSPViolationReport", "Preflight", "Other"}
for _, rs := range failResourceTypeList {
if resourceType == rs {
u, _ := url.Parse(pausedURL)
newReq := geneRequest(method, pausedURL, headers, postData, "dom")
if u.RawQuery != "" && checkReq(newReq) {
rstC <- newReq
}
_ = fetch.FailRequest(pausedRequestID, network.ErrorReasonAborted).Do(targetCtx)
return
}
}
// 丢弃登出请求
if strings.Contains(strings.ToLower(pausedURL), "logout") {
_ = fetch.FailRequest(pausedRequestID, network.ErrorReasonAborted).Do(targetCtx)
return
}
// 放行样式表和脚本
goResourceTypeList := []string{"Stylesheet", "Script"}
for _, rs := range goResourceTypeList {
if resourceType == rs {
_ = fetch.ContinueRequest(pausedRequestID).Do(targetCtx)
return
}
}
// 异步请求
if resourceType == "XHR" || resourceType == "Fetch" {
newReq := geneRequest(method, pausedURL, headers, postData, strings.ToLower(resourceType))
if checkReq(newReq) {
rstC <- newReq
}
_ = fetch.ContinueRequest(pausedRequestID).Do(targetCtx)
return
}
/*
导航请求
1-1. 顶层框架导航(chromedp.Navigate),相当于在地址拦手动输入网址导航
1-2. 点击页面链接(标签 a)导航
- 如果在当前页面导航,通过监听 RequestPaused 事件拦截请求,使用 fetch.FailRequest 阻断
- 如果导航到新标签页(target="_blank"),通过参数 block-new-web-contents 阻断
1-3. location.href 赋值导航 -- 当前页面
- 通过监听 RequestPaused 事件拦截请求,使用 fetch.FailRequest 阻断
1-4. window.open 导航 -- 新标签页
- 前端 hook
1-5. 提交表单导航
1-6. 后端发送 Location 响应头导航 -- 当前页面
- 通过监听 RequestPaused 事件拦截请求,使用 fetch.FailRequest 阻断
(通过设置 block-new-web-contents 浏览器参数,在 headless 模式下能成功阻断新标签页导航,但在 gui 模式下就失效了。)
在爬虫中,所有导航都由 chromedp.Navigate 收口。
*/
if ev.NetworkID == requestID && ev.FrameID == topFrameID {
// 当前标签页
if pausedURL == req.URL && method == "GET" {
// 顶层框架导航
// 放行
fetch.ContinueRequest(pausedRequestID).Do(targetCtx)
} else {
// JS 点击链接(标签 a 未设置 target="_blank" 属性)、location.href 赋值导航和提交表单到当前页
// 阻断
_ = fetch.FailRequest(pausedRequestID, network.ErrorReasonAborted).Do(targetCtx)
newReq := geneRequest(method, pausedURL, headers, postData, "navigation")
if checkReq(newReq) {
rstC <- newReq
mu.Lock()
if method == "GET" && !contains(stored, "GET"+newReq.URL) {
stored = append(stored, "GET"+newReq.URL)
reqC <- newReq
}
mu.Unlock()
}
}
return
}
// 放行其它资源类型(如:WebSocket)请求
_ = fetch.ContinueRequest(pausedRequestID).Do(targetCtx)
}()
case *target.EventTargetCreated:
// 新标签页创建事件,并实时关闭
wg.Add(1)
go func() {
defer wg.Done()
// 获取浏览器执行上下文
c := chromedp.FromContext(ctx)
browserCtx := cdp.WithExecutor(ctx, c.Browser)
if ev.TargetInfo.OpenerID == c.Target.TargetID {
// 如果新标签页由当前标签页打开,则关闭新标签页
// 阻止跳转到新标签页的行为
target.CloseTarget(ev.TargetInfo.TargetID).Do(browserCtx)
}
}()
case *page.EventLoadEventFired:
// 页面加载完成
// chromedp.Navigate 会等待该事件
wg.Add(1)
go func() {
defer wg.Done()
// 获取目标(标签页)执行上下文
c := chromedp.FromContext(ctx)
targetCtx := cdp.WithExecutor(ctx, c.Target)
// 等待 DOM 稳定
time.Sleep(200 * time.Millisecond)
// 监测 DOM 变化
runtime.Evaluate(mutationObserverJS).Do(targetCtx)
// 收集初始 DOM 中的链接
runtime.Evaluate(collectLinksJS).Do(targetCtx)
// 自动填充和提交表单
runtime.Evaluate(fillAndSubmitFormsJS).Do(targetCtx)
// 触发事件和执行 JS 伪协议
runtime.Evaluate(fmt.Sprintf(triggerEventsJS, conf["triggerEventInterval"].(int), conf["triggerEventInterval"].(int))).Do(targetCtx)
// 等待以上 JS 中 setTimeout 执行
// 页面 Ajax 化程度越高,等待时间越长
time.Sleep(conf["waitJSExecTime"].(time.Duration))
}()
case *page.EventJavascriptDialogOpening:
// 取消对话框
wg.Add(1)
go func() {
defer wg.Done()
// 获取目标(标签页)执行上下文
c := chromedp.FromContext(ctx)
targetCtx := cdp.WithExecutor(ctx, c.Target)
page.HandleJavaScriptDialog(false).Do(targetCtx)
}()
case *runtime.EventBindingCalled:
// 调用绑定函数事件
wg.Add(1)
go func() {
defer wg.Done()
var payload bindingPayload
_ = json.Unmarshal([]byte(ev.Payload), &payload)
newReq := geneRequest("GET", payload.URL, req.Headers, "", payload.Source)
if checkReq(newReq) {
rstC <- newReq
mu.Lock()
if !contains(stored, "GET"+newReq.URL) {
stored = append(stored, "GET"+newReq.URL)
reqC <- newReq
}
mu.Unlock()
}
}()
}
})
// 运行标签页,执行爬虫任务
if err := chromedp.Run(ctx,
// 开启请求拦截
fetch.Enable(),
// 在 window 对象中增加绑定
// 通过该绑定实现 js 到 go 的通信,并通过 hook bindingCalled 事件接收信息
runtime.AddBinding(bindingName),
chromedp.ActionFunc(func(ctx context.Context) error {
// 加载 bypass 脚本
_, err := page.AddScriptToEvaluateOnNewDocument(bypassHeadlessDetectJS).Do(ctx)
if err != nil {
return err
}
return nil
}),
chromedp.ActionFunc(func(ctx context.Context) error {
// 加载初始化 hook 脚本
_, err := page.AddScriptToEvaluateOnNewDocument(initHookJS).Do(ctx)
if err != nil {
return err
}
return nil
}),
network.SetExtraHTTPHeaders(req.Headers),
chromedp.Navigate(req.URL),
); err != nil && !strings.Contains(err.Error(), "net::ERR_ABORTED") {
log.Fatal("run brower error: ", err.Error())
}
// 等待 goroutine 执行完成
c := make(chan struct{})
go func() {
defer close(c)
wg.Wait()
}()
select {
case <-c:
// 正常
case <-time.After(conf["tabTimeout"].(time.Duration)):
// 超时
log.Printf("[-] crawl timeout: %s\n", req.URL)
}
if num > 1 {
cancel()
}
}
}
func crawl(reqs *[]request, allocCtx context.Context, conf map[string]interface{}) {
// 创建第一个标签页
ctx, cancel := chromedp.NewContext(
allocCtx,
//chromedp.WithDebugf(log.Printf),
)
defer cancel()
// 执行 Run 方法才会真正创建标签页
if err := chromedp.Run(ctx); err != nil {
log.Fatalln(err)
}
reqC := make(chan request, 100)
rstC := make(chan request, 100)
// 创建多个标签页,并发执行爬虫任务
for i := 1; i <= conf["tabConcurrentQuantity"].(int); i++ {
go runTab(i, reqC, rstC, ctx, conf)
}
reqC <- (*reqs)[0]
// 收集爬取的 req 对象
go func() {
for req := range rstC {
saveRequest(reqs, req)
}
}()
time.Sleep(conf["crawlTotalTime"].(time.Duration))
}