黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

HTTP代理ip可以突破防采集吗?

发布时间:2019年11月25日 来源:互联网

    HTTP代理ip可以突破防采集吗?人们使用http代理IP的用途有很多,其中突破防止采集就是其中的一个用途,常见的Web反采集策略大概有5种,他们是:


HTTP代理ip可以突破防采集吗?


    1、数据加密;


    2、限制访问频率;


    3、数据以非文本形式展现;


    4、验证码保护;


    5、Cookie验证;


    本文主要探讨一下如何突破限制访问频率:


    限制访问频率的原理:


    服务器端程序(例如,WAF、维护了一个客户端(IP、的访问计数,如果客户端(IP、请求频率超过阈值,请求就会被拦截,通常会出现下列情形:


    1、最常见的:返回403或503错误。


    2、连接被重置。


    3、最让人闹心的结果:返回无效的内容


    突破方法:


    1、使用HTTP代理ip。因为服务端是根据IP进行限制的,通过使用代理ip 就可以将下载量平均到多个IP上。


    需要提醒的是不要选择透明代理,因为透明代理就相当于你的真是ip只穿了一件透明的纱巾,里面的东西看的一清二楚,用和不用效果没啥区别 因为WAF能够检测到真实的源IP,所以要使用隐秘(secret)代理。


    2、增加请求延迟。比如,WAF限制单IP请求频率不能超过20次/分钟,我们可以在两次请求之间增加5S的延迟,这样下载频率就是12次/分钟,就不会被拦截了。


    我们一般都会将1,2种方法结合使用


    通常我们会将1、和2、的方法结合,这样即能防止被拦截,又能加快采集速度。例如,使用10个ip代理,每次下载增加5S延迟,一分钟的实际下载量就是:120次。


    3、利用搜索引擎缓存(Google,Bing,百度、。“曲线救国”策略,绕过目标服务器,从搜索引擎的缓存进行采集。而且缓存里的页面的结构和原页面是一样的,不用重写提取规则。


    4、谷歌翻译。让谷歌作为我们的“代理”,将源语言和目标语言都设置成一样,这样从谷歌翻译结果获取的数据和原页面就是一样的(注意,HTML结构有很大变化,需要重写提取规则)。


    5、对于返回无效内容的情况,一定要找到检测内容是否有效的方法,否则很难保证所有数据都是正确的。


相关文章内容简介

1 HTTP代理ip可以突破防采集吗?

    HTTP代理ip可以突破防采集吗?人们使用http代理IP的用途有很多,其中突破防止采集就是其中的一个用途,常见的Web反采集策略大概有5种,他们是:    1、数据加密;    2、限制访问频率;    3、数据以非文本形式展现;    4、验证码保护;    5、Cookie验证;    本文主要探讨一下如何突破限制访问频率:    限制访问频率的原理:    服务器端程序(例如,WAF、维护了一个客户端(IP、的访问计数,如果客户端(IP、请求频率超过阈值,请求就会被拦截,通常会出现下列情形:    1、最常见的:返回403或503错误。    2、连接被重置 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 16

    2019-05

    功能广泛质量稳定的代理IP软件推荐

    用于IP地址更换的用户可能会遇到一些难题,例如代理IP供应不稳定,代理IP质量太差,代理IP成本太高等。针对这些问题我们应该选择多功能,质量稳定,线路多,速度快,价格实惠,售前售后

  2. 03

    2019-10

    代理IP爬虫被封怎么解决?

    现在爬虫越来越火,大到征信,小到房产信息,汽车,身边的所有生活都于爬虫相关。随着爬虫越来越强,反爬虫的技术也越来越先进.出现了各种各样的验证码,以前还只是数字类,后来图片类,最变态是

  3. 04

    2019-04

    HTTP代理IP如何解决爬虫采集数据时遇到的困难?

    当下,用户信息转化速度特别快。面对要爬取的大批页面,只有分布式架构,才有机会在短期内进行一轮爬虫工作。原理就是把一个问题分解为单独的任务,每个任务在一个节点上运行,实现多

  4. 16

    2019-04

    代理IP如何帮助爬虫爬取京东商品信息数据的

    今天黑洞HTTP就为大家分享一下爬虫如何爬取京东商品信息数据的。首先我们先打开网页,输入需要搜索的关键词,然后进行页面分析,提取我们需要的内容。这里我们主要抓取京东某个商品前50

  5. 04

    2019-06

    如何运用代理ip进行仓库分析爬虫?

    如何运用代理ip进行仓库分析爬虫?Github 是一个很棒的社区,这里可以找到很多优秀的项目,很多实用的库类,简直是 coder 的天堂,同时也是全球最大的同性交友社区? 爬取的数据主要分为两

  6. 17

    2019-05

    Python爬虫如何使用http代理IP?

    简单的说,代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是404,所以要换个不会被墙的IP,比如国外的IP等。这个就是简单的代理。当