用代理IP应对爬虫被源网站流量监控封杀IP!爬虫经常需要配合代理IP,但并不是所有网站都会监控流量来源,一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。
这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。
那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。
所以真正的想用代理IP来做爬虫,还是找付费的比较好。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。
我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求库亲测并不能实现代理请求(也许是我姿势不对),参考网上教程需要使用request这个请求库(然而并不好用,API并不是流行的Promise方式)
所以我在逻辑代码里是这样实现的,首先封装一个请求函数,封装过后的请求函数就暴露了一个统一的request方法,使用时候只需要request(url)即可。
从代码里也可以看到:当代理有效时会用代理,当代理无效、超时或其他任何错误时会返回正常的请求,这也是降级保障了爬虫代码的健壮性。
在使用拨号服务器获取的代理IP时,超时时间是个需要不断调整的设置。超时太短了会导致代理不可用的概率提高,而超时太长则会影响整个爬虫的速度。
比如我给客户跑的这个爬虫,不使用代理时跑完需要4个小时,而如果使用代理,每次请求的时间就加长了,在设置2000毫秒的超时下,整个任务跑下来需要翻2倍的时间。
相关资讯
相关文章内容简介
1 用代理IP应对爬虫被源网站流量监控封杀IP
用代理IP应对爬虫被源网站流量监控封杀IP!爬虫经常需要配合代理IP,但并不是所有网站都会监控流量来源,一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。 这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。 那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。 所以真正的想用代理IP来做爬虫,还是找付费的比较好。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。 我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求 [阅读全文]
推荐阅读
20
2019-05
付费代理IP价格很高吗?
俗话说,天下没有免费的午餐,然而网上却有很多的免费代理IPIP。经过实际测试过后才发现,天下真的是没有免费的午餐,免费代理IPIP最昂贵。
23
2019-11
Linux搭建socks5代理服务器
1、编译安装SS5需要先安装一些依赖组件
30
2019-07
网络爬虫不用代理IP会被封吗
网络爬虫大家都知道是抓取数据的程序,很多人都说爬虫需要用代理IP才能不被封IP。那么,网络爬虫不用代理IP会被封吗?
27
2019-09
使用代理IP访问淘宝
淘宝网是亚太地区较大的综合类C2C网上购物平台,目前拥有注册会员数以亿计,各类店铺成千上万。那么这么多店铺,这么多商品,它们是以什么方式排名呢?在这里为大家科普下,电商平台排
28
2019-04
动态代理ip跟普通代理ip有什么区别?
在区分什么是动态代理IP之前,首先我们要弄清楚,什么是代理IP?就是你在你的浏览器设置选项中(IE/火狐/chrome),手动输入你的代理ip地址。然后用浏览器去搜索,比如说访问百度,在百度
09
2019-09
代理IP对于python的意义是什么?
大家都说现在是大数据时代,是python爬虫的天下,但python爬虫也是有天敌的,随着网络爬虫的日渐壮大,反爬虫也在不断进化,若想顺应时代发展,更好的突破网站反爬虫机制,拥有一款好的代
热门文章
注意: 严禁一切违规违法的业务,一经发现直接封帐号
Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司http代理 版权所有