IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

Python爬虫常用小技巧之设置代理IP

发布时间:2019年11月23日 来源:互联网

    当我们使用Python爬虫对一个网站进行爬取的时候,一般都会频繁的对该网站进行访问。假设一个网站可以检测到在某一个时间段内,某个IP地址的访问次数,如果该IP地址还是在某一个时间段内继续访问没并且访问次数远远超过正常用户的访问次数状况,那么该网站就会禁止该IP地址继续进行访问。所以,这个时候你就可以设置一些代理服务器来帮助你做工作,每次访问时间过长或者事访问频率特别高的时候,你就换一个IP代理,这样就不会出现因为频繁访问而导致禁止访问的现象。


    我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP


    这里介绍一款代理IP,黑洞代理,直接提取就可是使用


    配置环境


    安装requests库


    安装bs4库


    安装lxml库


    具体代码


    话不多说直接上代码吧

Python爬虫常用小技巧之设置代理IP


    函数get_ip_list(url, headers)传入url和headers,最后返回一个IP列表,列表的元素类似122.114.31.177:808格式,这个列表包括国内髙匿代理IP网站首页所有IP地址和端口


    函数get_random_ip(ip_list)传入第一个函数得到的列表,返回一个随机的proxies,这个proxies可以传入到requests的get方法中,这样就可以做到每次运行都使用不同的IP访问被爬取的网站,有效地避免了真实IP被封的风险


    proxies的格式是一个字典: {‘http': ‘http://122.114.31.177:808‘} ,可以将下面的执行也封装为方法


    对于抓取IP这个,黑洞代理的服务器做了反爬处理,如果你频繁去抓取的话,服务器会主动返回503错误,提示block,所以在请求的时候可以先一次请求完保存一个文件,来读取这个文件,或者爬取一个ip使用几分钟后,再去爬取一次,相当于加一个定时功能


    代理IP的使用


    运行上面的代码会得到一个随机的proxies,把它直接传入requests的get方法中即可


    1


    res = requests.get(url, headers=headers, proxies=proxies)


相关文章内容简介

1 Python爬虫常用小技巧之设置代理IP

    当我们使用Python爬虫对一个网站进行爬取的时候,一般都会频繁的对该网站进行访问。假设一个网站可以检测到在某一个时间段内,某个IP地址的访问次数,如果该IP地址还是在某一个时间段内继续访问没并且访问次数远远超过正常用户的访问次数状况,那么该网站就会禁止该IP地址继续进行访问。所以,这个时候你就可以设置一些代理服务器来帮助你做工作,每次访问时间过长或者事访问频率特别高的时候,你就换一个IP代理,这样就不会出现因为频繁访问而导致禁止访问的现象。    我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP    这里介绍一款代理IP,黑洞 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 26

    2019-08

    代理ip通用的爬虫系统有哪些类型?

    大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP。爬虫虽然大行其道,但相应的反爬虫也步步紧逼,毫不相让,唯有代理IP,

  2. 29

    2019-08

    论换ip对seo的作用

    修改ip也就是更改设备的换ip,可以称为网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个代理中转与另一个网络终端(一般为服务器)进行数据传输。一般认为

  3. 04

    2019-09

    经济实惠的代理IP服务商哪里有?

    互联网的迅速发展,用户需求的不断增多,代理IP迅速崛起,用户们实现一些目的时不得不随时随地得使用代理IP。由于代理IP市场的巨大和开放,代理IP行业可以说是鱼龙混杂,参差不齐,想要

  4. 17

    2019-06

    HTTP代理IP使你上网更安全

    在手机电脑全面普及的今天,网络在给我们便利的同时,也给我们带来了潜在威胁,这种不安全因素主要集中的网络的开放性,当我们访问一个网站时,对方会通过IP地址识别记录我们,而这有

  5. 28

    2019-04

    爬虫如何通过动态VPS被封锁?(一)

    爬取网站的时候经常会遇到网站上都部署了反爬虫机制,当服务器检测到一段时间内同一个 IP 持续密集的访问网站,则将其判定为爬虫程序,在一段时间内不允许该 IP 地址访问服务器。

  6. 31

    2019-08

    ip代理软件有什么用?哪种好用?

    网路ip软件加速器是指一种新型的虚拟专用网路构建工具,它能够在Interent网路中建立一条虚拟的专用通道,让两个远距离的网络用户在这个专用的网络通道中相互传递资料而不被外界所干扰