第一种为普通代理。这种http代理扮演得是一个中介得角色,对于链接到他的客户端来说,他就是服务器,而对于服务端来说他就是客户端。他的任务就是负责两个端口之间传送http报文。
第二种为隧道代理。他通过http协议得正文部分(Body)完成通讯,以http的方式实现任意基于TCP的应用层协议代理。这种代理使用http的connect方法建立链接。
普通代理
第一种web代理原理是:
HTTP 客户端向代理发送请求报文,代理服务器需要正确地处理请求和连接(例如正确处理 Connection: keep-alive),同时向服务器发送请求,并将收到的响应转发给客户端。
下面这张图片来自于《HTTP 权威指南》,直观地展示了上述行为:
假设客户通过代理网站访问A网站,对于A来讲他会把代理当作客户端,真正的网民使用的真实地址,他是察觉不到的,完全实现隐藏,
而客户端IP的目的。也可以修改http头部,通过X-Forwarded-IP 这样的自定义头部告知服务端真正的客户端IP。但服务器无法验证这个自定义头部真的是由代理添加,还是客户端修改了请求头,所以从 HTTP 头部字段获取 IP 时,需要格外小心。
给浏览器显式的指定代理,需要手动修改浏览器或操作系统相关设置,或者指定 PAC(Proxy Auto-Configuration,自动配置代理)文件自动设置,还有些浏览器支持 WPAD(Web Proxy Autodiscovery Protocol,Web 代理自动发现协议)。显式指定浏览器代理这种方式一般称之为正向代理,浏览器启用正向代理后,会对 HTTP 请求报文做一些修改,来规避老旧代理服务器的一些问题。还有一种情况是访问 A 网站时,实际上访问的是代理,代理收到请求报文后,再向真正提供服务的服务器发起请求,并将响应转发给浏览器。这种情况一般被称之为反向代理,它可以用来隐藏服务器 IP 及端口。一般使用反向代理后,需要通过修改 DNS 让域名解析到代理服务器 IP,这时浏览器无法察觉到真正服务器的存在,当然也就不需要修改配置了。反向代理是 Web 系统最为常见的一种部署方式,例如本博客就是使用 Nginx 的 proxy_pass 功能将浏览器请求转发到背后的 Node.js 服务。
隧道代理
第二种 Web 代理的原理也很简单:
HTTP 客户端通过 CONNECT 方法请求隧道代理创建一条到达任意目的服务器和端口的 TCP 连接,并对客户端和服务器之间的后继数据进行盲转发。
下面这张图片同样来自于《HTTP 权威指南》,直观地展示了上述行为:
假如我通过代理访问 A 网站,浏览器首先通过 CONNECT 请求,让代理创建一条到 A 网站的 TCP 连接;一旦 TCP 连接建好,代理无脑转发后续流量即可。所以这种代理,理论上适用于任意基于 TCP 的应用层协议,HTTPS 网站使用的 TLS 协议当然也可以。这也是这种代理为什么被称为隧道的原因。
相关资讯
相关文章内容简介
1 HTTP代理是如何爬取数据的
第一种为普通代理。这种http代理扮演得是一个中介得角色,对于链接到他的客户端来说,他就是服务器,而对于服务端来说他就是客户端。他的任务就是负责两个端口之间传送http报文。第二种为隧道代理。他通过http协议得正文部分(Body)完成通讯,以http的方式实现任意基于TCP的应用层协议代理。这种代理使用http的connect方法建立链接。普通代理第一种web代理原理是:HTTP 客户端向代理发送请求报文,代理服务器需要正确地处理请求和连接(例如正确处理 Connection: keep-alive),同时向服务器发送请求,并将收到的响应转发给客户端。下面这张图片来自于《HTTP 权威指南》,直观地展示了上述行为:假设客户通过代理网站访问A网站,对于A来讲他会把代理当作客户端,真正的网民使用的真实地址,他是察觉不到的,完全实现隐藏,而客户端IP的目的。也可以修改http头部,通过X-Fo [阅读全文]
推荐阅读
14
2019-06
使用HTTP代理IP有哪些优势
互联网的运行离不开大数据,而大数据的采集整理,又离不开HTTP代理IP的添砖加瓦。那么使用HTTP代理IP到底有哪些优势呢?
20
2019-09
爬虫代理ip横空出世的原因
说到爬虫代理ip资源出现的原因,我们就要从3个方面来分析了。
05
2019-07
HTTP代理IP为何深受爬虫喜爱?
HTTP代理IP指使用代理服务器使网络用户访问外部网站,简单的说就是换个IP访问网站。而网络爬虫是一种按照一定规则,自动抓取网站信息的程序或脚本,在抓取信息过程中经常受限于一些有IP
18
2019-04
代理IP哪里去购买呢?哪家强?
我在之前的文章中其实已经说过了,代理是批量中最为关键的一环。那么我们要如何选择代理呢?市面上有哪些代理比较好呢?
20
2019-11
爬虫使用ip代理采集数据的基本原理
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么正常,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden。
05
2019-11
使用代理ip访问网站却失败?
在日常的网络工作中,很多网络工作者需要使用到代理IP来辅助完成任务,如比较常见的爬虫工作、营销发帖、网络投票、效果补量等,有是使用第三方工具,有的自己编写代码程序,通过对接A
热门文章
注意: 严禁一切违规违法的业务,一经发现直接封帐号
Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司http代理 版权所有