IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

常见Python爬虫使用代理IP的方法

发布时间:2019年04月13日 来源:互联网

  常见Python爬虫使用代理IP的方法!大家在进行爬虫工作时候通常都会碰到类似的问题:一开始爬虫是运行正常的,采集信息,看上去一切都很完美,可是没一会的时间就可能提示异常,列入403 Forbidden;提示这个错误通常是因为目标网站设置了反爬策略,比如,服务器会检测某个ip在单位时间内的请求次数,要是超出某个阈值,服务器就会直接拒绝服务,返回一些异常信息。这里,代理ip就派上用场了。


常见Python爬虫使用代理IP的方法

  

       很多新手朋友可能对如何使用代理IP不太了解,就拿当下最流行的爬虫语言Python来说一说吧。


  一、urllib代理设置

  from urllib.error import URLError

  from urllib.request import ProxyHandler,build_opener

  proxy='123.58.10.36:8080' #使用本地代理

  #proxy='username:password@123.58.10.36:8080' #购买代理

  proxy_handler=ProxyHandler({

  'http':'http://'+proxy,

  'https':'https://'+proxy

  })

  opener=build_opener(proxy_handler)

  try:

  response=opener.open('http://httpbin.org/get') #测试ip的网址

  print(response.read().decode('utf-8'))

  except URLError as e:

  print(e.reason)


  二、requests代理设置

  import requests

  proxy='123.58.10.36:8080' #本地代理

  #proxy='username:password@123.58.10.36:8080'

  proxies={

  'http':'http://'+proxy,

  'https':'https://'+proxy

  }

  try:

  response=requests.get('http://httpbin.org/get',proxies=proxies)

  print(response.text)

  except requests.exceptions.ConnectionError as e:

  print('错误:',e.args)


  三、Selenium代理设置

  from selenium import webdriver

  proxy='123.58.10.36:8080'

  chrome_options=webdriver.ChromeOptions()

  chrome_options.add_argument('--proxy-server=http://'+proxy)

  browser=webdriver.Chrome(chrome_options=chrome_options)

  browser.get('http://httpbin.org/get')


相关文章内容简介

1 常见Python爬虫使用代理IP的方法

  常见Python爬虫使用代理IP的方法!大家在进行爬虫工作时候通常都会碰到类似的问题:一开始爬虫是运行正常的,采集信息,看上去一切都很完美,可是没一会的时间就可能提示异常,列入403 Forbidden;提示这个错误通常是因为目标网站设置了反爬策略,比如,服务器会检测某个ip在单位时间内的请求次数,要是超出某个阈值,服务器就会直接拒绝服务,返回一些异常信息。这里,代理ip就派上用场了。         很多新手朋友可能对如何使用代理IP不太了解,就拿当下最流行的爬虫语言Python来说一说吧。  一、urllib代理设置  from urllib.error import URLError  from urllib.request import ProxyHandler,build_opener  proxy='123.58.10.3 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 13

    2019-11

    被限制的Python爬虫怎么办?

    在 Python爬虫 抓取数据时,我们很容易被目标网站拒绝,这是目标网站阻止别人批量获取自己网站信息的一种方式,通常会采用封 IP 作为终极手段,效果非常好。针对此类情况,作为Python爬虫,

  2. 21

    2019-03

    Python简易实现IP代理池及其维护

    Python简易实现IP代理池及其维护 用处 通过自己购买或爬取到的ip,在程序中使用这些ip进行代理,达到绕过反爬虫机制的效果以及其他用途。

  3. 15

    2019-11

    代理ip服务器的工作原理和概念

    Web上的代理服务器是代表客户端完成事务处理的中间人。如果没有Web代理,HTTP客户端就会直接与HTTP服务器进行对话。

  4. 05

    2019-08

    高质量http代理IP和代理服务器怎么设置代理

    现在在网络购买到代理IP是一件很容易的事情,但是这几年代理IP市场的发展,使得各种各样的代理IP充斥着市场,代理IP的质量也是各不相同,但是作为消费者还是希望可以购买使用到高质量的

  5. 15

    2019-08

    什么是代理ip服务器,类型,代理列表

    在浏览网页时,你们中的许多人一定会遇到一个奇怪的“代理”字样。您可能会在弹出式广告中看到它,或者在工作时听到系统管理员的回复。也许你现在甚至使用它但却没有意识到这一点。什

  6. 19

    2019-06

    分布式爬虫哪家免费代理IP好?

    分布式爬虫采集网站信息时,经常会因为采集信息的强度过大的采集速度过快,触发到了网站的防爬取技术,导致IP地址被对方禁止访问网页。最普遍的解决办法是使用HTTP代理IP,原因一是获取