IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

基于Requests使用ip代理进行爬虫工作

发布时间:2019年04月10日 来源:互联网

基于Requests使用ip代理进行爬虫工作!大家应该都了解,大型网站都会设置相对的反爬虫机制,例如检测ip的浏览频率、次数等,如果超出了真实用户的浏览速度ip就会受限或被禁,因此大家在完成爬虫工作的时候也要采用一些方式,例如选择黑洞http,降低浏览频次,设置UA等。



基于Requests使用ip代理进行爬虫工作


#!/usr/bin/env python


# -*- coding:utf-8 -*-


import requests


import random


if __name__ == "__main__":


    #不同浏览器的UA


    header_list = [


        # 遨游


        {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"},


        # 火狐


        {"user-agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"},


        # 谷歌


        {


            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}


    ]


    #不同的代理IP(该代理ip可能失效了,请到黑洞HTTP官网购买开通)


    proxy_list = [


        {"http": "112.115.57.20:33128"},


        {‘http‘: ‘121.41.171.223:32128‘}


    ]


    #随机获取UA和代理IP


    header = random.choice(header_list)


    proxy = random.choice(proxy_list)




    url = ‘http://www.baidu.com/s?ie=UTF-8&wd=ip‘


    #参数3:设置代理


    response = requests.get(url=url,headers=header,proxies=proxy)


    response.encoding = ‘utf-8‘


    with open(‘daili.html‘, ‘wb‘) as fp:


        fp.write(response.content)


    #切换成原来的IP


    requests.get(url, proxies={"http": ""})


相关文章内容简介

1 基于Requests使用ip代理进行爬虫工作

基于Requests使用ip代理进行爬虫工作!大家应该都了解,大型网站都会设置相对的反爬虫机制,例如检测ip的浏览频率、次数等,如果超出了真实用户的浏览速度ip就会受限或被禁,因此大家在完成爬虫工作的时候也要采用一些方式,例如选择黑洞http,降低浏览频次,设置UA等。基于Requests使用ip代理进行爬虫工作#!/usr/bin/env python# -*- coding:utf-8 -*-import requestsimport randomif __name__ == "__main__":    #不同浏览器的UA    header_list = [        # 遨游        {"user-agent": [阅读全文]

热门标签

最新标签

推荐阅读

  1. 28

    2019-06

    代理IP为何受喜爱

    蜜罐技术是一种对攻击方进行欺骗的技术,它先放一些作为诱饵的虚假信息在网上,诱使攻击方对其实施攻击。在此过程中,蜜罐技术会分析攻击方使用的工具和方法,据此强化自己的安全防御

  2. 02

    2019-04

    爬虫与HTTP代理:爬虫工程师的工作内容是怎么样的?

    互联网是由一个一个的超链接组成的,从一个网页的链接可以跳到另一个网页,在新的网页里,又有很多链接。理论上讲,从任何一个网页开始,不断点开链接、链接的网页的链接,就可以走遍

  3. 23

    2019-03

    常用的几种浏览器如何设置代理IP上网

    浏览器设置代理IP上网是代理IP最基础的使用方法,不同的浏览器设置代理IP的方法略有不同,下面就几种常用的浏览器如何设置代理IP进行说明。

  4. 24

    2019-06

    代理IP盘点通用的爬虫系统有哪些类型?

    爬虫技术就是一个高效的下载系统,能够将海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。根据具体应用的不同,爬虫系统在许多方面存在差异,大体而已,可以将爬虫系统分

  5. 28

    2019-03

    Python爬虫经常很容易被封,代理IP帮你解封

    Python爬虫在互联网上进行数据抓取时,经常会遇见莫名其妙的封禁问题,爬着爬着就不行了,导致日常工作都无法正常运行,整个人都斯巴达了。很多朋友都不明白为什么会被封,为什么很容易

  6. 25

    2019-10

    企业爬虫对代理ip的要求有多高?

    大数据时代,拥有大数据就是赢家,其中爬虫是现在抓取数据的主要方式,很多企业都根据爬虫抓取的数据进行分析,并制定合适自己的推广方案。由于爬虫程序对目标网站并没有任何好处,所