黑洞HTTP代理

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

python爬虫http代理

发布时间:2019年09月02日 来源:互联网

  1,代理类别


  1,FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。


python爬虫http代理


  2,HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。


  3,SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。


  4,RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。


  5,Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。


  6,POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。


  7,SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5,前者只支持TCP,而后者支持TCP和UDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。


  2,爬虫代理


  对于爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能遇到同一个IP访问过于频繁的问题,此时网站就会让我们输入验证码登录或者直接封锁IP,这样会给爬取带来极大的不便。


  使用代理隐藏真实的IP,让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。


  3,什么是HTTP代理


  ,HTTP代理本质上是一个Web应用,它和其他普通Web应用没有根本区别。HTTP代理收到请求后,根据Header中Host字段的主机名和Get/POST请求地址综合判断目标主机,建立新的HTTP请求并转发请求数据,并将收到的响应数据转发给客户端。


  4,python使用代理访问服务器


  python使用代理访问服务器主要有一下3个步骤:


  1.创建一个代理处理器ProxyHandler:


  proxy_support = urllib.request.ProxyHandler(),ProxyHandler是一个类,其参数是一个字典:{ '类型':'代理ip:端口号'}


  什么是Handler?Handler也叫作处理器,每个handlers知道如何通过特定协议打开URLs,或者如何处理URL打开时的各个方面,例如HTTP重定向或者HTTP cookies。


  2.定制、创建一个opener:


  opener = urllib.request.build_opener(proxy_support)


  什么是opener?python在打开一个url链接时,就会使用opener。其实,urllib.request.urlopen()函数实际上是使用的是默认的opener,只不过在这里我们需要定制一个opener来指定handler。


  3a.安装opener


  urllib.request.install_opener(opener)


  install_opener 用来创建(全局)默认opener,这个表示调用urlopen将使用你安装的opener。


  3b.调用opener


  opener.open(url)


  该方法可以像urlopen函数那样直接用来获取urls:通常不必调用install_opener,除了为了方便。


  proxy = {u'https':u'14.118.253.99:6666'}


  proxy_support = urllib2.ProxyHandler(proxy)# 注册代理


  opener = urllib2.build_opener(proxy_support)


  urllib2.install_opener(opener)


  opener.open(url)    #url 是你要访问的地址


  5,从代理ip列表中随机使用某ip去访问URL的例子


  import urllib.request


  import random


  url = 'http://www.whatismyip.com.tw'


  iplist = ['115.32.41.100:80','58.30.231.36:80','123.56.90.175:3128']


  proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})


  opener = urllib.request.build_opener(proxy_support)


  opener.addheaders = [('User-Agent','Test_Proxy_Python3.5_maminyao')]


  urllib.request.install_opener(opener)


  response = urllib.request.urlopen(url)


  html = response.read().decode('utf-8')


  print(html)


相关文章内容简介

1 python爬虫http代理

  1,代理类别  1,FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。  2,HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。  3,SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。  4,RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。  5,Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。  6,POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。  7,SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 20

    2019-06

    HTTP代理IP平台哪个好

    对于爬虫工作者来说,工作不仅仅是研究反爬虫策略,编写爬虫代码,还有一个比较重要的工作,那就是选择优质的代理IP。代理IP平台选对了,可以让爬虫工作事半功倍,如果选差了,不仅效

  2. 07

    2019-05

    代理IP怎么解决IP不足的问题?

    在网络爬虫抓取信息的过程中,经常会被网站禁止访问但是却一直找不到原因,这也是让很多人头疼的原因,这里有几个方面可以帮你初步检测一下到底是哪里出了问题。

  3. 16

    2019-05

    快速稳定的代理ip才是好的代理ip

    不同的人对代理ip的要求不尽相同,但是拥有一款优质的代理ip是每个用户所追求的。优质的代理ip主要看两个方面:稳定,只有代理ip稳定,持续时间才会很长且不用频繁的更换ip;快速,速度

  4. 18

    2019-04

    代理IP如何爬虫帮助爬取到网页的源代码?

    今天我们就来看下,爬虫是如何爬取到网页源代码的。这里我们就以极光爬虫网站为例,来爬取网站的源代码,并把代码保存到本地。爬取时,需要用到python的urllib模块,具体代码如下:

  5. 04

    2019-06

    IP代理服务器软件的优势有哪些?

    很多人都在使用代理IP服务器服务器共享上网,利用局域网有线宽带加快内网用户的访问速度,还可以共享ip上网,同时,可以作为防火墙,保护内网安全,监控网络传输记录,加强网络安全性

  6. 11

    2019-05

    IP代理软件简介

    所为IP代理软件,就是像生活中的代理商一样,你需要的数据用它在别的机器上下载你所需要的数据,信息等等,然后保存在这个软件中,再用这个软件传输到你所需要的工作机器中,这就是I