网络爬虫是在不使用API和Web浏览器的情况下,通过计算机程序自动从internet上收集数据的一种实践。还有一些其他的术语,包括屏幕抓取、web收集、web爬行、数据挖掘,都包含在网络爬虫中。
这是一门网络爬虫实战课程,让我们带你揭开爬虫的神秘面纱,掌握爬虫的基本原理,深入理解scrapy框架,使用scrapy进行项目实战,解决在数据抓取过程中遇到的常见问题。
网络爬虫可以自动完成这一过程,而不是由访问网站的web浏览器复制粘贴重要数据。网络爬虫现在对数据科学家来说非常重要。数据科学家分析从各种媒体收集的数据。现在大部分数据来自不同的网站。由于Python编程非常流行于收集数据,许多数据科学家使用Python编程来解决这个问题。
如果我们分析谷歌的业务,我们将看到谷歌最初作为一个搜索引擎启动。他们的搜索引擎最初是使用Python编程构建的。即使是在一项研究中,来自twitter、facebook和博客的不同类型的信息也被收集起来,以构建一个用于构建预测模型的数据集。因此,知道如何使用Python抓取web数据是一项必须掌握的重要技能。
我创建了这个课程,尽可能的简短和有用。在很短的时间内,您就可以学习使用Python进行网络爬虫的所有重要主题和技术。
在本课程中,我假设您对网络爬虫没有或几乎没有经验。我将教你网络抓取从零开始到一个完整的程序。您将学习使用Python中不同且流行的方法来抓取其他网站的数据。