IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

Python使用代理ip的三种方法

发布时间:2019年11月21日 来源:互联网

我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么的美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden;出现这样的原因往往是网站采取了一些反爬虫的措施,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接拒绝服务,返回一些错误信息。这时候,代理IP就派上用场了。


Python使用代理ip的三种方法


很多新手朋友可能对如何使用代理IP不太了解,就拿当下最流行的爬虫语言Python来说吧。


一、urllib代理设置:


from urllib.error import URLError


from urllib.request import ProxyHandler,build_opener


proxy='123.58.10.36:8080'  #使用本地代理


#proxy='username:password@123.58.10.36:8080'  #购买代理


proxy_handler=ProxyHandler({


'http':'http://'+proxy,


'https':'https://'+proxy


})


opener=build_opener(proxy_handler)


try:


response=opener.open('http://httpbin.org/get') #测试ip的网址


print(response.read().decode('utf-8'))


except URLError as e:


print(e.reason)


二、requests代理设置:


import requests


proxy='123.58.10.36:8080'  #本地代理


#proxy='username:password@123.58.10.36:8080'


proxies={


'http':'http://'+proxy,


'https':'https://'+proxy


}


try:


response=requests.get('http://httpbin.org/get',proxies=proxies)


print(response.text)


except requests.exceptions.ConnectionError as e:


print('错误:',e.args)


三、Selenium代理设置:


from selenium import webdriver


proxy='123.58.10.36:8080'


chrome_options=webdriver.ChromeOptions()


chrome_options.add_argument('--proxy-server=http://'+proxy)


browser=webdriver.Chrome(chrome_options=chrome_options)


browser.get('http://httpbin.org/get')


以上三种就是爬虫使用代理ip的方法。


相关文章内容简介

1 Python使用代理ip的三种方法

我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么的美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden;出现这样的原因往往是网站采取了一些反爬虫的措施,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接拒绝服务,返回一些错误信息。这时候,代理IP就派上用场了。很多新手朋友可能对如何使用代理IP不太了解,就拿当下最流行的爬虫语言Python来说吧。一、urllib代理设置:from urllib.error import URLErrorfrom urllib.request import ProxyHandler,build_openerproxy='123.58.10.36:8080'  #使用本地代理#proxy='username:password@12 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 06

    2019-09

    如何判断代理IP的匿名程度和是否有效?

    我们在使用代理IP的时候,一般都要使用高度匿名,不然使用效果不好。但现在市场上很多代理IP都是混合的,特别是免费代理IP,都到达不到高度匿名。那么,我们要怎么判断代理IP的匿名程度

  2. 21

    2019-03

    ip代理详解:爬虫常用的这个库数据库urllib

    urlib库为python3的HTTP内置请求库,urilib的四个模块:urllib.request:用于获取网页的响应信息内容,urllib.error:异常处理模块,用于处理异常的模块

  3. 19

    2019-03

    为你的爬虫实现动态ip代理

    在写爬虫时,某些网站会有一些防爬措施,比如限制单个ip的访问频率。而突破ip限制的方式,大概有如下几种:

  4. 08

    2019-05

    爬虫代理进行挖掘的常见问题

    虽然 爬虫代理特别昂贵但并不是特别贵啦,但重要的是要把事情放在眼前,并认识到如果你的目标网站检测到你并且提供了伪造的信息,这可能会导致更大的资金负担; 在这一点上,支付具有良

  5. 09

    2019-07

    金融行业大数据中如何使用代理IP?

    现如今各个行业其实都跟互联网有着非常密切的联系,那金融行业相信大家都不会陌生,而现在的金融行业它都已经逐渐的和互联网相连接在一起,目前的金融行业经常打交道的文化就是数字文

  6. 29

    2019-05

    代理IP经常遇到哪些错误?

    在使用代理IP的过程中,经常会遇到一些问题,可能一夜醒来,发现代理IP全都不能用了,也有可能就吃了个中午饭,下午的代理IP就大面积失效了,这是为什么呢,是代理IP的质量突然下降了吗