黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

Python爬虫常用小技巧之设置代理IP

发布时间:2019年11月23日 来源:互联网

    当我们使用Python爬虫对一个网站进行爬取的时候,一般都会频繁的对该网站进行访问。假设一个网站可以检测到在某一个时间段内,某个IP地址的访问次数,如果该IP地址还是在某一个时间段内继续访问没并且访问次数远远超过正常用户的访问次数状况,那么该网站就会禁止该IP地址继续进行访问。所以,这个时候你就可以设置一些代理服务器来帮助你做工作,每次访问时间过长或者事访问频率特别高的时候,你就换一个IP代理,这样就不会出现因为频繁访问而导致禁止访问的现象。


    我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP


    这里介绍一款代理IP,黑洞代理,直接提取就可是使用


    配置环境


    安装requests库


    安装bs4库


    安装lxml库


    具体代码


    话不多说直接上代码吧

Python爬虫常用小技巧之设置代理IP


    函数get_ip_list(url, headers)传入url和headers,最后返回一个IP列表,列表的元素类似122.114.31.177:808格式,这个列表包括国内髙匿代理IP网站首页所有IP地址和端口


    函数get_random_ip(ip_list)传入第一个函数得到的列表,返回一个随机的proxies,这个proxies可以传入到requests的get方法中,这样就可以做到每次运行都使用不同的IP访问被爬取的网站,有效地避免了真实IP被封的风险


    proxies的格式是一个字典: {‘http': ‘http://122.114.31.177:808‘} ,可以将下面的执行也封装为方法


    对于抓取IP这个,黑洞代理的服务器做了反爬处理,如果你频繁去抓取的话,服务器会主动返回503错误,提示block,所以在请求的时候可以先一次请求完保存一个文件,来读取这个文件,或者爬取一个ip使用几分钟后,再去爬取一次,相当于加一个定时功能


    代理IP的使用


    运行上面的代码会得到一个随机的proxies,把它直接传入requests的get方法中即可


    1


    res = requests.get(url, headers=headers, proxies=proxies)


相关文章内容简介

1 Python爬虫常用小技巧之设置代理IP

    当我们使用Python爬虫对一个网站进行爬取的时候,一般都会频繁的对该网站进行访问。假设一个网站可以检测到在某一个时间段内,某个IP地址的访问次数,如果该IP地址还是在某一个时间段内继续访问没并且访问次数远远超过正常用户的访问次数状况,那么该网站就会禁止该IP地址继续进行访问。所以,这个时候你就可以设置一些代理服务器来帮助你做工作,每次访问时间过长或者事访问频率特别高的时候,你就换一个IP代理,这样就不会出现因为频繁访问而导致禁止访问的现象。    我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP    这里介绍一款代理IP,黑洞 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 11

    2019-02

    Python如何设置使用HTTP代理

    HTTP代理可以当成一个Web应用,跟普通Web应用没有什么区别,可用于请求/响应内容修改,一般上HTTP代理用于网络共享、网络加速和网络限制突破等。那么Python如何设置使用HTTP代理呢?

  2. 19

    2019-11

    http反向代理会遇到什么问题?

    使用域名指向nginx服务来代理https,nginx可以通过分析clienthello中的server_name字段得到访问域名,然后通过解析域名地址来进行代理。

  3. 29

    2019-05

    怎样适合自己项目的代理IP?

    代理IP质量有好有坏,免费拨号IP,一般IP质量和稳定性不佳,用来抓取信息的成功率也较低。

  4. 16

    2019-02

    这些反爬虫,爬虫怎么应对爬取信息

    爬虫可以加快获取信息的速度,大大提升工作的效率,并且可以用于多种行业,因此使用爬虫的人比较多。但网站也不是好欺负的,很多网站的反爬虫机制都比较严格,除了验证码限制,还有其

  5. 27

    2019-06

    注册多个账号就用代理ip

    网民在上网的时候,很多时候需要使用到IP地址代理软件,比如在注册多个账号的时候,就需要不断地更换IP。虽然手动更换IP是可以的,但是手动的方法太过繁琐。这个时候,用IP代理软件是非

  6. 08

    2019-03

    淘宝店铺运营怎么做?如何提升流量?

    电商发展迅速,其中淘宝作为平民类店铺比较多,开淘宝店资金比较少,淘宝店主也随之出现。但近年来淘宝对店铺的扶持也来越严格,淘宝运营中经常出现很多问题。那么根据现在的这个大环