黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

Java利用代理IP发送HTTP请求

发布时间:2019年04月04日 来源:互联网

大数据时代下,数据采集推动着数据分析,数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,所以在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。


下文中基于apache的httpclient 4.5.2,代理服务器存在用户名密码鉴权。


首先,针对鉴权,我们需要设置身份验证,并根据配置的身份认证信息来创建一个httpclient。


然后还要创建一个代理,并设置到请求信息中;。


最后是运行请求。


代码如下:


Java利用代理IP发送HTTP请求


在执行测试中小编犯了几个很低级的错误,首先目标URL不可以是localhost/127.0.0.1,归因于这样其实代理服务器请求的是自身,可是由于代理服务器本地并没有部署对应服务,因此会返回失败,小编这里返回的是503错误。还有就是由于小编请求的代理是部署在存储器上的,假如用的是内网IP也是行不通的,因为无法找到那个IP,因此使用前要确认代理是部署在哪的。


相关文章内容简介

1 Java利用代理IP发送HTTP请求

大数据时代下,数据采集推动着数据分析,数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,所以在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。下文中基于apache的httpclient 4.5.2,代理服务器存在用户名密码鉴权。首先,针对鉴权,我们需要设置身份验证,并根据配置的身份认证信息来创建一个httpclient。然后还要创建一个代理,并设置到请求信息中;。最后是运行请求。代码如下:在执行测试中小编犯了几个很低级的错误,首先目标URL不可以是localhost/127.0.0.1,归因于这样其实代理服务器请求的是自身,可是由于代理服务器本地并没有部署对应服务,因此会返回失败,小编这里返回的是503错误。还有就是由于小编请求的代理是部署在存储器上的,假 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 18

    2019-11

    Python爬虫的基本抓取网页

    爬虫在开发过程中也有很多复用的过程,这里先总结一下基本抓取网页和cookie处理方法,以后也能省些事情。

  2. 17

    2019-05

    有筛选功能的代理IP软件有什么好处

    现如今,代理IP软件在互联网应用广泛,可涉猎投票、注册、论坛发帖、问答、点击等众多方面。在我们选择一款代理IP软件时,除了看重IP质量外,一些人性化小功能也不能忽视,例如筛选功能

  3. 18

    2019-11

    为什么要选择高匿名代理IP?

    什么是高匿名代理IP?为什么很多朋友会选择是高匿名代理IP?

  4. 01

    2019-07

    什么样的HTTP服务器使好用呢?

    随着大数据时代到来,代理IP行业发展十分迅速,或大或小的品牌商家如雨后春笋般破土而出,用户随时随地切换IP已不再是难事。然而因为代理IP行业门槛低,如今的市场可谓是鱼龙混杂,想要

  5. 31

    2019-05

    直播用代理IP服务器提高人气吗?

    互联网的快速发展,给我们物质生活带来便利的同时,也给我们的精神生活带来了丰富多彩,比如很多朋友就喜欢看各种直播平台的直播,导致最近几年的直播平台也发展的非常火爆,很多有才

  6. 24

    2019-05

    高匿代理ip是什么意思?

    高匿代理与透明代理是相对的,而相对普通的匿名代理而言,高匿代理则对受访者显得更为隐秘。三者中从隐藏使用代理者身份的级别依次为高度匿名代理最隐蔽,其次是普通匿名代理,最差的