IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

通过代理ip进行分布式爬虫的几种方案

发布时间:2019年04月11日 来源:互联网

通过代理ip进行分布式爬虫的几种方案!假如不用代理ip,爬虫业务必定无路可行,因此大部分爬虫工作者都会去购买安全稳定的代理ip。使用了高质量的代理ip后,会不会就能够无后顾之忧了呢?这个可不会这么容易,还要改进方案,有效分配资源,提升工作效率,又快速又稳定又高效的完成爬虫。


通过代理ip进行分布式爬虫的几种方案


方案一、每个进程从接口API中随机取一个IP列表来反复使用,失效后再调用API获取,大致逻辑是这样:


1、每个进程,从接口随机取回一批ip回来,反复试着ip目录去抓取数据;


2、要是访问成功,则继续抓取下一条。


3、要是失败了,再从接口取一批IP,继续尝试。


方案弊端:每个IP都是有期限的,要是提取了一百个,用到第二十个时,或许剩下的大多数都无法使用了。要是设置HTTP请求时连接时间超时是3秒,读取时间超时是5秒,那么或许会耗费3-8秒的时间,在这3-8秒内可能抓取了几百次了。


方案二:每个进程从接口API中随机取一个IP来使用,失败则再调用API获取一个IP,大致逻辑如下:


1、每个进程,从接口随机取回一个ip来,用这个ip来浏览资源,


2、要是访问成功,则继续抓下一条。


3、要是失败了,再从接口随机取一个IP,继续尝试。


方案缺点:调用API获取IP的行为非常频繁,会对代理服务器造成特别大的压力,影响API接口稳定,可能会被限制提取。这类方案也不适合,无法持久稳定的运行。


方案三:先提取大量IP导入本地数据库,从数据库里面取IP,大致逻辑如下:


1、在数据库里面建一个表,写一个导入脚本,每分钟请求多少次API(咨询代理IP服务商建议),把IP列表导入到数据库里面。


2、在数据库里面记录好 导入时间、IP、Port、过期时间、IP可用状态 等字段;


3、写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP进行使用。


4、执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃这个IP,重新换一个IP。


这种方案有效的避开了代理服务器资源的消耗,有效的分配代理IP的使用,更加的高效和稳定,保障了爬虫工作的持久性和稳定性。


相关文章内容简介

1 通过代理ip进行分布式爬虫的几种方案

通过代理ip进行分布式爬虫的几种方案!假如不用代理ip,爬虫业务必定无路可行,因此大部分爬虫工作者都会去购买安全稳定的代理ip。使用了高质量的代理ip后,会不会就能够无后顾之忧了呢?这个可不会这么容易,还要改进方案,有效分配资源,提升工作效率,又快速又稳定又高效的完成爬虫。方案一、每个进程从接口API中随机取一个IP列表来反复使用,失效后再调用API获取,大致逻辑是这样:1、每个进程,从接口随机取回一批ip回来,反复试着ip目录去抓取数据;2、要是访问成功,则继续抓取下一条。3、要是失败了,再从接口取一批IP,继续尝试。方案弊端:每个IP都是有期限的,要是提取了一百个,用到第二十个时,或许剩下的大多数都无法使用了。要是设置HTTP请求时连接时间超时是3秒,读取时间超时是5秒,那么或许会耗费3-8秒的时间,在这3-8秒内可能抓取了几百次了。方案二:每个进程从接口API中随机取一个IP来使用, [阅读全文]

热门标签

最新标签

推荐阅读

 1. 20

  2019-06

  为什么需要高质量稳定代理IP?

  还有很多朋友不用免费的HTTP代理IP,购买的普通代理IP或者开放代理IP,发现效果仅仅比免费代理IP高那么一丢丢,其实普通代理IP或者开放代理IP只是对免费代理进行了筛选验证,其本质并没有

 2. 09

  2019-07

  选择代理IP需要了解什么?

  代理类型一共能分为四种。透明代理,匿名代理,高匿代理,还有混淆代理。

 3. 25

  2019-03

  IP代理爬取的数据有什么用?

  随着大数据这样一个名词进入我们的视线,很多人都对大数据技术又爱又恨,那现在大数据都有什么用呢?

 4. 22

  2019-04

  代理IP可以分为哪几类,我们该如何选择?

  尽管代理IP的用途很广泛,使用的人群越来越多,但依然有很多新手不太理解代理IP的作用,有哪些类型,今天就来讨论下代理IP的分类。

 5. 26

  2019-07

  怎么搭建IP代理服务器

  随着网路的发展,人们对网络资源和服务的需求是日渐增长,连入的网络的计算机越来越多,我们的生活正随着网络而改变。网络的高速发展同时也伴随着一些问题,如IP地址耗尽,海量的主机

 6. 06

  2019-03

  选择代理IP时需要注意哪些事项

  代理IP对有些人来说是很熟悉的,但有些人而言却又是陌生的。很多人都会以为换IP是个非常简单的事情,事实上换IP的方法也比较多,需求不同,换IP的方法也会有所不同。那么我们在选择代理I