spider

normal spider

iushibaike_spider.py，是爬取糗事百科首页内容的

tieba_spider.py，是按楼层爬取百度贴吧帖子的

location_code_spider.py, 爬取统计局行政区划代码, 输出 insert sql

scrapy spider

require python2.7 scrapy1.0+

how to use

cd confluence
scrapy crawl confluence

amazonsims

亚马逊还买了什么列表

confluence

修改 spider.py 里的 allowed_domains, start_urls, base_url, cookies 参数

e.g

allowed_domains = ["www.confluence.com"]
start_urls = [
      'http://www.confluence.com/dashboard.action',
]
base_url = 'http://www.confluence.com'
cookies = {
  'JSESSIONID': '338CACC64F0C6C9CA88550EAB7978674',
  'doc-sidebar': '300px'
}

JSESSIONID 为登录后 cookies 里的 sessionId，这里简单处理了，没有实现页面登录，有需要的自己实现下

babynames

https://www.familyeducation.com/baby-names/browse-origin/surname

爬取各国家人名

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
amazonsims		amazonsims
babynames		babynames
common		common
confluence		confluence
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
help.md		help.md
location_code_spider.py		location_code_spider.py
qiushibaike_spider.py		qiushibaike_spider.py
request1.py		request1.py
spider_v1.0.py		spider_v1.0.py
tieba_spider.py		tieba_spider.py
tool.py		tool.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

spider

normal spider

scrapy spider

amazonsims

confluence

babynames

About

Releases

Packages

Languages

ld000/spider

Folders and files

Latest commit

History

Repository files navigation

spider

normal spider

scrapy spider

amazonsims

confluence

babynames

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages