IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

爬虫如何通过动态VPS被封锁?(一)

发布时间:2019年04月28日 来源:互联网

  爬虫如何通过动态VPS被封锁?(一)爬取网站的时候经常会遇到网站上都部署了反爬虫机制,当服务器检测到一段时间内同一个 IP 持续密集的访问网站,则将其判定为爬虫程序,在一段时间内不允许该 IP 地址访问服务器。

爬虫如何通过动态VPS被封锁?(一)

  这种情况其实可以写个延迟函数,每爬一次随机歇个几秒钟,有效的降低访问密度,从而避开反爬机制。但是弊端是太浪费时间,一天爬几万条数据会感到非常吃力。这时就需要更加有效率的爬取数据,所以需要使用动态ip 和随机 UA(User-Agent)。说白了就是伪装爬虫,假装不同的人使用不同的浏览器在访问网站。


  使用动态拨号VPS


  除了代理IP以外,还可以使用动态拨号VPS来更换IP,这种方式获得的IP质量更高,而且可以直接在拨号vps上部署业务,更加方便。这种方式需要进行一些技术处理,实现IP更换和调用。


  使用动态ip


  使用动态ip 的强大之处在于它在爬虫运行的同时,在线获取动态ip。每次只获取一页,存于数组中,随机使用。当大部分的 IP 失效之后(记录访问失败的次数,当超过一定阈值时,则视为此页动态ip 失效),然后重新获取一页动态ip,如此,可保证每次使用的都是最新的 IP,而且不需要额外的空间和文件来存放动态ip。


  def get_proxy(page):


  '''


  功能:获取 快代理 网站上的最新免费代理IP


  参数: page 页数


  返回:存有动态ip 的列表 proxyList


  '''


  # 存放获取到的动态ip 信息    proxyList = []    # 访问 快代理 网站,获取第 page 页的网页信息    headers = {                "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"    }    request = urllib.request.Request("https://www.kuaidaili.com/free/inha/"+str(page), headers=headers)    html = urllib.request.urlopen(request).read()        # 解析网页信息,从中提取动态ip 的数据    content = etree.HTML(html)    ip = content.xpath('//td[@data-title="IP"]/text()')    port = content.xpath('//td[@data-title="PORT"]/text()')    # 将动态ip 信息存入 proxyList 列表    for i in ip:        for p in port:            proxyList.append(i+':'+p)    return proxyList


相关文章内容简介

1 爬虫如何通过动态VPS被封锁?(一)

  爬虫如何通过动态VPS被封锁?(一)爬取网站的时候经常会遇到网站上都部署了反爬虫机制,当服务器检测到一段时间内同一个 IP 持续密集的访问网站,则将其判定为爬虫程序,在一段时间内不允许该 IP 地址访问服务器。  这种情况其实可以写个延迟函数,每爬一次随机歇个几秒钟,有效的降低访问密度,从而避开反爬机制。但是弊端是太浪费时间,一天爬几万条数据会感到非常吃力。这时就需要更加有效率的爬取数据,所以需要使用动态ip 和随机 UA(User-Agent)。说白了就是伪装爬虫,假装不同的人使用不同的浏览器在访问网站。  使用动态拨号VPS  除了代理IP以外,还可以使用动态拨号VPS来更换IP,这种方式获得的IP质量更高,而且可以直接在拨号vps上部署业务,更加方便。这种方式需要进行一些技术处理,实现IP更换和调用。  使用动态ip  使用动态ip 的强大之处在于它在爬虫运行的同时,在线获取动态 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 07

    2019-11

    HTTP代理IP使用有要注意的点吗?

    代理ip渐渐走进我们的生活,但是使用代理ip需要注意什么?你有了解过吗?掌握了代理IP的使用要点,才能够在使用HTTP资源时得心应手,注于提供HTTP系列产品代理服务的高端优质IP代理公司神

  2. 03

    2019-04

    干货分享!获取代理ip地址的方法

    要用到代理服务器,前提需要获得代理服务器具体地址,它应当是ip地址或URL,比如“http.hunbovps.com”。如果代理服务器提供URL当做它的地址,那么有时候代表此代理服务器的IP地址不稳定,它可

  3. 07

    2019-05

    代理IP为什么能保护爬虫不被限制?

    在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的轻度和采集速度太大,给对方服务器带去了太多的压力。如果你一直用同一个代理IP爬取这个网页

  4. 15

    2019-04

    手机电脑如何切换全国各地的IP地址?

    有时我们因为各种需要,要经常更换IP地址,有些用户不知道手机电脑怎么使用全国动态IP,其实方法非常简单,使用黑洞HTTP即可,比手动拨号更换IP地址方便多了,下面跟小编学习手机电脑使

  5. 06

    2019-08

    现代代理ip服务器用途

    如何设置代理服务器,怎么使用 IP 代理服务器上网呢,很多网友探讨这个问题,想必是因为工作原因吧,虽然正常上网一般用不到代理,但是看自己需求吧,今天说的代理上网不是网上说的翻

  6. 20

    2019-08

    不同IP类型代表着什么,有哪些功能?

    现在是互联网营销的时代,互联网成为个人和企业重要的营销工具。互联网上有很多的方式和渠道可以利用起来。