"得数据者得天下"。在大数据盛行的今天,你或许很容易能在网上看到什么"年度总结",这些东西就是一系列的数据。网上还有很流行的词云,也是通过爬虫爬取下来的数据整理的。总之,会爬虫者得数据,得数据者得天下。
⚙ 安装库的方法有很多种,但我们选用最简单的第三方包管理工具 pip 来安装。使用的方法很简单,只需要打开命令行,输入:
pip install ***
pip install requests
Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页面来说,此种抓取方式非常有效。
pip install selenium
暂时未更~
📚 lxml 的安装
lxml 是Python的一个解析库,支持 HTML 和 XML 的解析,支持 XPtah 解析方式,而且解析效率非常高。
pip install lxml