IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

HTTP代理ip可以突破防采集吗?

发布时间:2019年11月25日 来源:互联网

    HTTP代理ip可以突破防采集吗?人们使用http代理IP的用途有很多,其中突破防止采集就是其中的一个用途,常见的Web反采集策略大概有5种,他们是:


HTTP代理ip可以突破防采集吗?


    1、数据加密;


    2、限制访问频率;


    3、数据以非文本形式展现;


    4、验证码保护;


    5、Cookie验证;


    本文主要探讨一下如何突破限制访问频率:


    限制访问频率的原理:


    服务器端程序(例如,WAF、维护了一个客户端(IP、的访问计数,如果客户端(IP、请求频率超过阈值,请求就会被拦截,通常会出现下列情形:


    1、最常见的:返回403或503错误。


    2、连接被重置。


    3、最让人闹心的结果:返回无效的内容


    突破方法:


    1、使用HTTP代理ip。因为服务端是根据IP进行限制的,通过使用代理ip 就可以将下载量平均到多个IP上。


    需要提醒的是不要选择透明代理,因为透明代理就相当于你的真是ip只穿了一件透明的纱巾,里面的东西看的一清二楚,用和不用效果没啥区别 因为WAF能够检测到真实的源IP,所以要使用隐秘(secret)代理。


    2、增加请求延迟。比如,WAF限制单IP请求频率不能超过20次/分钟,我们可以在两次请求之间增加5S的延迟,这样下载频率就是12次/分钟,就不会被拦截了。


    我们一般都会将1,2种方法结合使用


    通常我们会将1、和2、的方法结合,这样即能防止被拦截,又能加快采集速度。例如,使用10个ip代理,每次下载增加5S延迟,一分钟的实际下载量就是:120次。


    3、利用搜索引擎缓存(Google,Bing,百度、。“曲线救国”策略,绕过目标服务器,从搜索引擎的缓存进行采集。而且缓存里的页面的结构和原页面是一样的,不用重写提取规则。


    4、谷歌翻译。让谷歌作为我们的“代理”,将源语言和目标语言都设置成一样,这样从谷歌翻译结果获取的数据和原页面就是一样的(注意,HTML结构有很大变化,需要重写提取规则)。


    5、对于返回无效内容的情况,一定要找到检测内容是否有效的方法,否则很难保证所有数据都是正确的。


相关文章内容简介

1 HTTP代理ip可以突破防采集吗?

    HTTP代理ip可以突破防采集吗?人们使用http代理IP的用途有很多,其中突破防止采集就是其中的一个用途,常见的Web反采集策略大概有5种,他们是:    1、数据加密;    2、限制访问频率;    3、数据以非文本形式展现;    4、验证码保护;    5、Cookie验证;    本文主要探讨一下如何突破限制访问频率:    限制访问频率的原理:    服务器端程序(例如,WAF、维护了一个客户端(IP、的访问计数,如果客户端(IP、请求频率超过阈值,请求就会被拦截,通常会出现下列情形:    1、最常见的:返回403或503错误。    2、连接被重置 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 08

    2019-11

    从哪方面选择代理ip?

    互联网时代,不论是企业还是个人,多多少少的都会遇到IP被封,或者是需要频繁切换IP的情况,这个时候,我们就需要使用到换IP软件来解决这个问题,那么我们该从哪方面选择代理ip?

  2. 10

    2019-07

    代理IP为何受青睐?

    人类进入网络时代,信息的传播与交流方式都发生了很大的改变。好比国内你有身份证,出国你有护照,在互联网中你也有自己的身份唯一标识,这就是IP。当你访问目标网站时,对方通过记录

  3. 01

    2019-06

    使用IP代理服务器软件速度慢是为什么?

    相信很多朋友都使用过IP代理服务器软件,不管是因为业务需求还是个人需求,在使用IP代理服务器软件的过程中总会碰到一些让人郁闷无比的问题,比如IP代理服务器软件连接不上,又如经历了

  4. 26

    2019-10

    爬虫的IP被限制该怎么办?

    俗话说,拥有大数据的人,就是拥有财富的人。现代社会,使用爬虫爬取数据,是一项非常重要的手段。

  5. 12

    2019-08

    国内代理ip软件有哪些?哪个代理IP效果好呢?

    为什么要使用代理ip软件,因为ip频繁的爬取某个服务器,会对服务器造成巨大负载,因此大部分的网站都设有限制,ip限制是最常用的一种,因此想要频繁访问就需要更换ip,那么国内代理ip软

  6. 13

    2019-11

    如何验证代理IP是否可用?

    首先说说思路:将抓到的IP和端口从MySQL数据表中取出来,然后通过PHP中curl函数设置代理,再访问百度或者其他能访问到的网站,通过返回的状态码是否等于200来判断代理IP是不是可以正常使用