分布式爬虫系统(1)-什么是网络爬虫?

一句话概况的话,网络爬虫是一种运行在互联网上为了获取数据的自动化程序或者脚本。
它有三个特点:

  • 运行在互联网上
  • 是为了获取数据
  • 是一种自动化程序或者脚本

从它的三个特点来看,第一个特点是运行在互联网上,这个概念不需要解释。

第二种特点是为了获取数据,这时候产生了一个子问题,爬虫是为了获取什么样的数据呢?
互联网上的数据千千万万,爬虫不可能完全都爬下来,所以爬虫爬取的数据肯定是互联网上所有数据子集。
那这个子集,究竟有多大呢?其实这个数据子集有多大,完全是根据我们对数据的需求来计算的。
比如,我想获取起点中文网上所有的小说数据,那么爬虫爬取的数据量就是起点中文网上所有的小说数据。
也就是说,爬虫获取数据量的大小完全是根据业务需求来的。

第三个特点是自动化程序或者脚本,既然爬虫是程序或者脚本,那么就决定了使用任意一种编程语言都可以来进行爬虫开发,因为任何编程语言写出来的代码都可以叫做程序和脚本。所以,我们要进一步探索到爬虫的内在核心,其实爬虫的内在核心是网络通信,而网络通信是所有编程语言都能够做的事情。

标签: none

相关文章推荐

添加新评论,含*的栏目为必填