IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

通过代理ip进行分布式爬虫的几种方案

发布时间:2019年04月11日 来源:互联网

通过代理ip进行分布式爬虫的几种方案!假如不用代理ip,爬虫业务必定无路可行,因此大部分爬虫工作者都会去购买安全稳定的代理ip。使用了高质量的代理ip后,会不会就能够无后顾之忧了呢?这个可不会这么容易,还要改进方案,有效分配资源,提升工作效率,又快速又稳定又高效的完成爬虫。


通过代理ip进行分布式爬虫的几种方案


方案一、每个进程从接口API中随机取一个IP列表来反复使用,失效后再调用API获取,大致逻辑是这样:


1、每个进程,从接口随机取回一批ip回来,反复试着ip目录去抓取数据;


2、要是访问成功,则继续抓取下一条。


3、要是失败了,再从接口取一批IP,继续尝试。


方案弊端:每个IP都是有期限的,要是提取了一百个,用到第二十个时,或许剩下的大多数都无法使用了。要是设置HTTP请求时连接时间超时是3秒,读取时间超时是5秒,那么或许会耗费3-8秒的时间,在这3-8秒内可能抓取了几百次了。


方案二:每个进程从接口API中随机取一个IP来使用,失败则再调用API获取一个IP,大致逻辑如下:


1、每个进程,从接口随机取回一个ip来,用这个ip来浏览资源,


2、要是访问成功,则继续抓下一条。


3、要是失败了,再从接口随机取一个IP,继续尝试。


方案缺点:调用API获取IP的行为非常频繁,会对代理服务器造成特别大的压力,影响API接口稳定,可能会被限制提取。这类方案也不适合,无法持久稳定的运行。


方案三:先提取大量IP导入本地数据库,从数据库里面取IP,大致逻辑如下:


1、在数据库里面建一个表,写一个导入脚本,每分钟请求多少次API(咨询代理IP服务商建议),把IP列表导入到数据库里面。


2、在数据库里面记录好 导入时间、IP、Port、过期时间、IP可用状态 等字段;


3、写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP进行使用。


4、执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃这个IP,重新换一个IP。


这种方案有效的避开了代理服务器资源的消耗,有效的分配代理IP的使用,更加的高效和稳定,保障了爬虫工作的持久性和稳定性。


相关文章内容简介

1 通过代理ip进行分布式爬虫的几种方案

通过代理ip进行分布式爬虫的几种方案!假如不用代理ip,爬虫业务必定无路可行,因此大部分爬虫工作者都会去购买安全稳定的代理ip。使用了高质量的代理ip后,会不会就能够无后顾之忧了呢?这个可不会这么容易,还要改进方案,有效分配资源,提升工作效率,又快速又稳定又高效的完成爬虫。方案一、每个进程从接口API中随机取一个IP列表来反复使用,失效后再调用API获取,大致逻辑是这样:1、每个进程,从接口随机取回一批ip回来,反复试着ip目录去抓取数据;2、要是访问成功,则继续抓取下一条。3、要是失败了,再从接口取一批IP,继续尝试。方案弊端:每个IP都是有期限的,要是提取了一百个,用到第二十个时,或许剩下的大多数都无法使用了。要是设置HTTP请求时连接时间超时是3秒,读取时间超时是5秒,那么或许会耗费3-8秒的时间,在这3-8秒内可能抓取了几百次了。方案二:每个进程从接口API中随机取一个IP来使用, [阅读全文]

热门标签

最新标签

推荐阅读

  1. 04

    2019-06

    代理IP服务器软件如何提高c#爬虫抓取效率?

    c#爬虫,现在做业务越来越难,市面上的代理ip商家五花八门,试过很多代理ip的人会知道对业务效果并不理想,为什么黑洞HTTP的代理ip质量很高,下面我来介绍一下。

  2. 26

    2019-10

    如何给浏览器设置代理ip服务器?

    代理ip的作用非常之多,在用代理ip之前,我们先要设置好,那该怎么设置呢,下面我们来看看。

  3. 05

    2019-11

    代理服务器作用多吗?

    http代理ip很多,但是哪家好用呢,又有什么功能呢?依旧是难以get到的点,今天就让小编带大家一起来探索一番。http服务器代理哪家好?自然是选择一家正规、专业的平台。虽然当下有很多这

  4. 24

    2019-10

    HTTP代理IP在使用上有优势吗?

    现在市面上 IP 代公司出售的 代理IP ,从隐藏级别上区分,可分为三种,即透明代理、普通代理和高匿名代理。三者区别如下:

  5. 19

    2019-03

    动态ip代理为你详解这些长得很像的代理模式

    什么是HTTP代理?HTTP团队路径是什么?HTTPS是一个复杂的HTTP数字吗?初次接触这种代理的新程序员不可避免地会感到困惑。这篇文章告诉你这些非常相似的代理是什么?

  6. 20

    2019-08

    代理IP是如何使用的?

    ip是上网需要唯一的身份地址,而代理ip就是我们上网过程中的一个中间平台,是由你的电脑先访问代理ip,之后再由代理ip访问你点开的页面,所以在这个页面的访问记录里留下的是就是代理ip