黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

常见Python爬虫使用代理IP的方法

发布时间:2019年04月13日 来源:互联网

  常见Python爬虫使用代理IP的方法!大家在进行爬虫工作时候通常都会碰到类似的问题:一开始爬虫是运行正常的,采集信息,看上去一切都很完美,可是没一会的时间就可能提示异常,列入403 Forbidden;提示这个错误通常是因为目标网站设置了反爬策略,比如,服务器会检测某个ip在单位时间内的请求次数,要是超出某个阈值,服务器就会直接拒绝服务,返回一些异常信息。这里,代理ip就派上用场了。


常见Python爬虫使用代理IP的方法

  

       很多新手朋友可能对如何使用代理IP不太了解,就拿当下最流行的爬虫语言Python来说一说吧。


  一、urllib代理设置

  from urllib.error import URLError

  from urllib.request import ProxyHandler,build_opener

  proxy='123.58.10.36:8080' #使用本地代理

  #proxy='username:password@123.58.10.36:8080' #购买代理

  proxy_handler=ProxyHandler({

  'http':'http://'+proxy,

  'https':'https://'+proxy

  })

  opener=build_opener(proxy_handler)

  try:

  response=opener.open('http://httpbin.org/get') #测试ip的网址

  print(response.read().decode('utf-8'))

  except URLError as e:

  print(e.reason)


  二、requests代理设置

  import requests

  proxy='123.58.10.36:8080' #本地代理

  #proxy='username:password@123.58.10.36:8080'

  proxies={

  'http':'http://'+proxy,

  'https':'https://'+proxy

  }

  try:

  response=requests.get('http://httpbin.org/get',proxies=proxies)

  print(response.text)

  except requests.exceptions.ConnectionError as e:

  print('错误:',e.args)


  三、Selenium代理设置

  from selenium import webdriver

  proxy='123.58.10.36:8080'

  chrome_options=webdriver.ChromeOptions()

  chrome_options.add_argument('--proxy-server=http://'+proxy)

  browser=webdriver.Chrome(chrome_options=chrome_options)

  browser.get('http://httpbin.org/get')


相关文章内容简介

1 常见Python爬虫使用代理IP的方法

  常见Python爬虫使用代理IP的方法!大家在进行爬虫工作时候通常都会碰到类似的问题:一开始爬虫是运行正常的,采集信息,看上去一切都很完美,可是没一会的时间就可能提示异常,列入403 Forbidden;提示这个错误通常是因为目标网站设置了反爬策略,比如,服务器会检测某个ip在单位时间内的请求次数,要是超出某个阈值,服务器就会直接拒绝服务,返回一些异常信息。这里,代理ip就派上用场了。         很多新手朋友可能对如何使用代理IP不太了解,就拿当下最流行的爬虫语言Python来说一说吧。  一、urllib代理设置  from urllib.error import URLError  from urllib.request import ProxyHandler,build_opener  proxy='123.58.10.3 [阅读全文]

热门标签

最新标签