黑洞HTTP代理

黑洞HTTP

您的位置: 首页 > 新闻资讯 > 国内代理 > 正文

如何合理的控制爬虫采集速度

发布时间:2019年02月27日 来源:互联网

随大数据时代,行业以及个人都越来越需要数据的帮助。在这样的大背景下,数据采集成为了重中之重,也成为了技术主流,但是大量的采集会受到限制,其中最常被限制的是IP,该如何解决代理IP的问题也成了一大问题。


我们都知道对于爬虫的速度,并不是越快越好的,采集的速度越快,越是容易被发现,也就是说越容易被封。那么如何避免这个问题呢?如何合理的控制爬虫采集速度?


我们首先来了解下关于爬虫采集速度过快会导致什么问题:


1、对于我们来说,抓取速度太快将导致致服务器禁止访问,从而丢失大量有效数据,甚至需要重新抓取。


2.如果速度太快,将给服务器造成过大的负载;控制采集速度,对于目标网站来说是一种礼貌。


那么如何合理的控制爬虫采集速度,才能使它不至于太快呢?


通常情况下,在每个页面抓取之间设定较大的延时等待以限制最大访问频率,可以保证既不会给服务器造成过重负担,也不会因访问太频繁而被服务器禁止,然而这样的方法将导致网络利用率低,抓取速度慢,对于大量网页的抓取任务来说,往往是无法忍受的。


如何合理的控制爬虫采集速度


上图是一个简化的理想模型,可以很好的说明这个问题,假设某网站允许的最大访问频率为6页/分钟,于是最小时间间隔为10s,这个时间要通过很多次重复试验来确定。网络流畅时每个网页读取时间为0.5s,为了保证不被服务器屏蔽,至少要等待9.5s的间隔时间才继续抓取下一个页面,这个9.5s的间隔时间是固定的,即使网络较差时也要等待这么长的时间。网络较差时,网页读取时间为9.5s,再延时等待9.5s,于是每个网页的读取时间变为19s,几乎是网络流畅时的两倍。而实际上网络较差时的理想情况下,只需要等待0.5s,这时便保持和网络流畅时相同的抓取速度,由此可见这种限制最大速度的方法是很低效的。


另外延时等待时间对抓取频率的影响是很模糊的,延时1s时抓取频率是100页/分钟,那么延时10s就是10页/分钟吗?很难确定,尤其是在复杂的网络环境中。


要改进上述方法,一种很自然的解决方案就是:使等待时间动态变化,即等于最小时间间隔减去网页读取时间,这样就能保证网页平均抓取时间在网络流畅和网络较差时都为最小时间间隔。这种方法对于单线程的爬虫访问小规模网站来说也许可行,但在多线程分布式的爬虫访问大规模网站时,整体上的抓取时间由许多并行的抓取任务共同决定,并且各种异常情况(页面无效或者连接超时)使得抓取时间更加不可计算,这种方法就显得相当笨拙了。


综合考虑各种因素,显然我们需要一种模糊的,不需要精确计算的方法来控制爬虫抓取速度,而且这个速度是很直观的以频率(页/分钟)来表示——PID控制算法就是其中一种。PID控制器控制爬虫速度的原理简单来说就是:速度快了,增加延时时间;速度慢了,减小延时时间。


以上介绍了关于如何合理的控制爬虫采集速度的问题,既然不能快速采集,那么爬虫是如何提高效率的呢?可以使用代理IP更换IP,即可以持续采集,比如使用黑洞HTTP。还可以使用多线程,多进程,这样肯定是比单线程采集更快的。


黑洞HTTP是高质量的HTTP/Socks代理服务器,1次可提取多个IP,帮助你采集更多数据。


相关文章内容简介

1 如何合理的控制爬虫采集速度

随大数据时代,行业以及个人都越来越需要数据的帮助。在这样的大背景下,数据采集成为了重中之重,也成为了技术主流,但是大量的采集会受到限制,其中最常被限制的是IP,该如何解决代理IP的问题也成了一大问题。我们都知道对于爬虫的速度,并不是越快越好的,采集的速度越快,越是容易被发现,也就是说越容易被封。那么如何避免这个问题呢?如何合理的控制爬虫采集速度?我们首先来了解下关于爬虫采集速度过快会导致什么问题:1、对于我们来说,抓取速度太快将导致致服务器禁止访问,从而丢失大量有效数据,甚至需要重新抓取。2.如果速度太快,将给服务器造成过大的负载;控制采集速度,对于目标网站来说是一种礼貌。那么如何合理的控制爬虫采集速度,才能使它不至于太快呢?通常情况下,在每个页面抓取之间设定较大的延时等待以限制最大访问频率,可以保证既不会给服务器造成过重负担,也不会因访问太频繁而被服务器禁止,然而这样的方法将导致网络利用 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 06

    2019-05

    HTTP和HTTP代理有什么关系?

    HTTP(超文本传输??协议)是用于在因特网上发送和显示文件(文本,图形图像,声音,视频和其他多媒体文件)的协议。HTTP代理是一种高性能内容过滤器。它检查Web流量以识别可疑内容,可能

  2. 04

    2019-03

    如何获取免费代理服务器&进行代理验证

    登录http://http.hunbovps.com/就能获取爬虫代理的免费试用机会, 下面我们来讲一下获取后怎么进行代理验证

  3. 24

    2019-08

    如何简单的利用代理ip做爬虫?

    一套稳定的代理池服务,可以提供上千个爬虫有效的代理,同时各个爬虫都是对应网站有效的免费ip代理服务器,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。可以利用一

  4. 18

    2018-12

    IP被限制?代理IP上网非常简单!

    日常生活中,我们上网可能不想使用自己电脑的IP,又或者需要换IP申请某某的东西,甚至可以看看一些限制的网站,怎么办呢?下面教大家一种方法。

  5. 12

    2019-04

    代理IP使用的主要催化剂是流媒体素材的使用

    黑洞HTTP的代理IP提供商拥有服务器,PCI合规性,Web应用防火墙,以及常规安全程序专用的主机硬件。1 代理服务提供商还有其他优势可能会有所不同。但有些允许端口路由,这使得系统中的设备

  6. 19

    2019-04

    代理IP是新媒体时代的营销利器

    在互联网诞生后,网站作为一种有效的沟通工具备受很多个人和企业推崇。这时候一些人因为成功抓住了这个商机,迅速攫取了人生的第一桶金,比如以投资域名起家的蔡文胜,以他为代表的一