IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

用代理IP应对爬虫被源网站流量监控封杀IP

发布时间:2019年05月21日 来源:互联网

  用代理IP应对爬虫被源网站流量监控封杀IP!爬虫经常需要配合代理IP,但并不是所有网站都会监控流量来源,一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。


用代理IP应对爬虫被源网站流量监控封杀IP


  这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。


  那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。


  所以真正的想用代理IP来做爬虫,还是找付费的比较好。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。


  我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求库亲测并不能实现代理请求(也许是我姿势不对),参考网上教程需要使用request这个请求库(然而并不好用,API并不是流行的Promise方式)


  所以我在逻辑代码里是这样实现的,首先封装一个请求函数,封装过后的请求函数就暴露了一个统一的request方法,使用时候只需要request(url)即可。


  从代码里也可以看到:当代理有效时会用代理,当代理无效、超时或其他任何错误时会返回正常的请求,这也是降级保障了爬虫代码的健壮性。


  在使用拨号服务器获取的代理IP时,超时时间是个需要不断调整的设置。超时太短了会导致代理不可用的概率提高,而超时太长则会影响整个爬虫的速度。


  比如我给客户跑的这个爬虫,不使用代理时跑完需要4个小时,而如果使用代理,每次请求的时间就加长了,在设置2000毫秒的超时下,整个任务跑下来需要翻2倍的时间。


相关文章内容简介

1 用代理IP应对爬虫被源网站流量监控封杀IP

  用代理IP应对爬虫被源网站流量监控封杀IP!爬虫经常需要配合代理IP,但并不是所有网站都会监控流量来源,一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。  这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。  那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。  所以真正的想用代理IP来做爬虫,还是找付费的比较好。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。  我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 29

    2019-07

    网关和代理服务器有什么区别吗?

    如果两个网络要进行通讯,那么每个网络都需要一个网关。网关区分了一个网络的内部和外部。如果一台电脑需要访问网络外的其他电脑,那么就需要配置网关来获得访问网络外部的权限。如果

  2. 16

    2019-10

    HTTP代理IP访问网站,有效隐藏源IP地址

    你对HTTP代理IP这个字眼陌生吗?实际上这个字眼离你并不遥远。HTTP代理IP是将用户的IP进行更换,帮助用户在网上做一些事情。针对网络爬虫,小编下面就为大家讲述一下HTTP代理IP的作用。

  3. 28

    2019-04

    高匿代理IP为什么能保障我们的网络安全?

    我们知道,代理ip按照匿名程度来分可以分为透明代理、普匿代理和高匿代理,透明代理会暴露自己的真实IP,普匿代理不会暴露自己的真实IP,但会暴露使用了代理IP,高匿代理IP什么都不会暴

  4. 04

    2019-11

    如何检测是否为高匿代理ip?

    如何检测是否为代理ip,为什么要使用代理ip?就是隐藏自己的真实ip,从而达到自我的保护的作用,突破终极目标的反爬机制的限制,那么代理ip是否真的可以隐藏自己的真实ip,如何检测代理ip

  5. 22

    2019-10

    初次使用代理IP要注意什么?

    对于营销行业的用户来说,代理IP的使用是很常见的,但对于一些刚接触代理的用户来说,可能对其不是很了解。那么,下面就为大家讲一下使用代理IP需要注意的问题。

  6. 15

    2019-08

    关于使用代理ip进行挖掘的常见问题

    虽然 代理服务器 特别昂贵但并不是特别贵啦,但重要的是要把事情放在眼前,并认识到如果你的目标网站检测到你并且提供了伪造的信息,这可能会导致更大的资金负担; 在这一点上,支付具