黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > 国内代理 > 正文

如何合理的控制爬虫采集速度

发布时间:2019年02月27日 来源:互联网

随大数据时代,行业以及个人都越来越需要数据的帮助。在这样的大背景下,数据采集成为了重中之重,也成为了技术主流,但是大量的采集会受到限制,其中最常被限制的是IP,该如何解决代理IP的问题也成了一大问题。


我们都知道对于爬虫的速度,并不是越快越好的,采集的速度越快,越是容易被发现,也就是说越容易被封。那么如何避免这个问题呢?如何合理的控制爬虫采集速度?


我们首先来了解下关于爬虫采集速度过快会导致什么问题:


1、对于我们来说,抓取速度太快将导致致服务器禁止访问,从而丢失大量有效数据,甚至需要重新抓取。


2.如果速度太快,将给服务器造成过大的负载;控制采集速度,对于目标网站来说是一种礼貌。


那么如何合理的控制爬虫采集速度,才能使它不至于太快呢?


通常情况下,在每个页面抓取之间设定较大的延时等待以限制最大访问频率,可以保证既不会给服务器造成过重负担,也不会因访问太频繁而被服务器禁止,然而这样的方法将导致网络利用率低,抓取速度慢,对于大量网页的抓取任务来说,往往是无法忍受的。


如何合理的控制爬虫采集速度


上图是一个简化的理想模型,可以很好的说明这个问题,假设某网站允许的最大访问频率为6页/分钟,于是最小时间间隔为10s,这个时间要通过很多次重复试验来确定。网络流畅时每个网页读取时间为0.5s,为了保证不被服务器屏蔽,至少要等待9.5s的间隔时间才继续抓取下一个页面,这个9.5s的间隔时间是固定的,即使网络较差时也要等待这么长的时间。网络较差时,网页读取时间为9.5s,再延时等待9.5s,于是每个网页的读取时间变为19s,几乎是网络流畅时的两倍。而实际上网络较差时的理想情况下,只需要等待0.5s,这时便保持和网络流畅时相同的抓取速度,由此可见这种限制最大速度的方法是很低效的。


另外延时等待时间对抓取频率的影响是很模糊的,延时1s时抓取频率是100页/分钟,那么延时10s就是10页/分钟吗?很难确定,尤其是在复杂的网络环境中。


要改进上述方法,一种很自然的解决方案就是:使等待时间动态变化,即等于最小时间间隔减去网页读取时间,这样就能保证网页平均抓取时间在网络流畅和网络较差时都为最小时间间隔。这种方法对于单线程的爬虫访问小规模网站来说也许可行,但在多线程分布式的爬虫访问大规模网站时,整体上的抓取时间由许多并行的抓取任务共同决定,并且各种异常情况(页面无效或者连接超时)使得抓取时间更加不可计算,这种方法就显得相当笨拙了。


综合考虑各种因素,显然我们需要一种模糊的,不需要精确计算的方法来控制爬虫抓取速度,而且这个速度是很直观的以频率(页/分钟)来表示——PID控制算法就是其中一种。PID控制器控制爬虫速度的原理简单来说就是:速度快了,增加延时时间;速度慢了,减小延时时间。


以上介绍了关于如何合理的控制爬虫采集速度的问题,既然不能快速采集,那么爬虫是如何提高效率的呢?可以使用代理IP更换IP,即可以持续采集,比如使用黑洞HTTP。还可以使用多线程,多进程,这样肯定是比单线程采集更快的。


黑洞HTTP是高质量的HTTP/Socks代理服务器,1次可提取多个IP,帮助你采集更多数据。


相关文章内容简介

1 如何合理的控制爬虫采集速度

随大数据时代,行业以及个人都越来越需要数据的帮助。在这样的大背景下,数据采集成为了重中之重,也成为了技术主流,但是大量的采集会受到限制,其中最常被限制的是IP,该如何解决代理IP的问题也成了一大问题。我们都知道对于爬虫的速度,并不是越快越好的,采集的速度越快,越是容易被发现,也就是说越容易被封。那么如何避免这个问题呢?如何合理的控制爬虫采集速度?我们首先来了解下关于爬虫采集速度过快会导致什么问题:1、对于我们来说,抓取速度太快将导致致服务器禁止访问,从而丢失大量有效数据,甚至需要重新抓取。2.如果速度太快,将给服务器造成过大的负载;控制采集速度,对于目标网站来说是一种礼貌。那么如何合理的控制爬虫采集速度,才能使它不至于太快呢?通常情况下,在每个页面抓取之间设定较大的延时等待以限制最大访问频率,可以保证既不会给服务器造成过重负担,也不会因访问太频繁而被服务器禁止,然而这样的方法将导致网络利用 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 28

    2019-05

    代理IP在软营销中有什么作用?

    对于单个商家来说,他们的软营销更多运用于在贴吧的发帖。但是只要是在贴吧经常发帖的商家都知道,贴吧发帖是很容易被删的,并且最重要的是,如果用一个ip地址发的帖经常被删,这个ip

  2. 23

    2019-08

    爬虫如何使用代理IP让图片自动下载?

    Python爬虫的问世,节省了很多机械性的工作,当大批量的信息需要被爬取的时候,爬虫能够自动的进行下载,很大层度上提升了工作效率。那么Python爬虫如何使用代理IP帮助进行图片自动下载?

  3. 16

    2019-04

    使用代理服务器确保数据功能的安全性?

    加密。这到底是什么意思?你被隐藏了。使用代理服务器确保数据功能的安全性虚拟专用网络是一种独特的系统,可以在从1个位置传输数据时对其进行分发和加密。通过代理连接到网络,您可

  4. 24

    2019-08

    如何简单的利用代理ip做爬虫?

    一套稳定的代理池服务,可以提供上千个爬虫有效的代理,同时各个爬虫都是对应网站有效的免费ip代理服务器,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。可以利用一

  5. 19

    2019-04

    代理IP告诉你IP地址保密的重要性

    代理IP告诉你IP地址保密的重要性!简单的理解一下IP地址:IP地址就等于你家的地址,必要时相关部门根据IP地址就可以找到你,这是最简单的理解。专业性的解释,简单一些的说,IP协议中还有

  6. 28

    2019-05

    IP代理软件可以使用多长时间呢?

    相信很多人都听说过黑洞HTTP代理IP这个软件吧,在现实生活中很多人都会去使用它,现在黑洞HTTP代理IP的用户已经越来越多了,大多数人对于它的印象都很好,因为在使用的过程中获得了很多