Skip to content

Latest commit

 

History

History

step6-Crawl

💬Python3 网络爬虫

  "得数据者得天下"。在大数据盛行的今天,你或许很容易能在网上看到什么"年度总结",这些东西就是一系列的数据。网上还有很流行的词云,也是通过爬虫爬取下来的数据整理的。总之,会爬虫者得数据,得数据者得天下。

📑 章节目录:

1. 开发环境配置

  ⚙ 安装库的方法有很多种,但我们选用最简单的第三方包管理工具 pip 来安装。使用的方法很简单,只需要打开命令行,输入:

    pip install ***

📜 目录:

  1.1. 请求库的安装

    - requests 的安装

    - Selenium 的安装

  1.2. 解析库的安装

  1.3. 数据库的安装

  1.4. 存储库的安装


1.1. 请求库的安装

  📚 requests 的安装

  pip install requests

  📚 Selenium 的安装

    Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页面来说,此种抓取方式非常有效。

    pip install selenium

  📚 ChromeDriver 的安装

    暂时未更~

1.2. 解析库的安装

  📚 lxml 的安装

    lxml 是Python的一个解析库,支持 HTML 和 XML 的解析,支持 XPtah 解析方式,而且解析效率非常高。

    pip install lxml

返回目录⬆