IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

Java利用代理IP发送HTTP请求

发布时间:2019年04月04日 来源:互联网

大数据时代下,数据采集推动着数据分析,数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,所以在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。


下文中基于apache的httpclient 4.5.2,代理服务器存在用户名密码鉴权。


首先,针对鉴权,我们需要设置身份验证,并根据配置的身份认证信息来创建一个httpclient。


然后还要创建一个代理,并设置到请求信息中;。


最后是运行请求。


代码如下:


Java利用代理IP发送HTTP请求


在执行测试中小编犯了几个很低级的错误,首先目标URL不可以是localhost/127.0.0.1,归因于这样其实代理服务器请求的是自身,可是由于代理服务器本地并没有部署对应服务,因此会返回失败,小编这里返回的是503错误。还有就是由于小编请求的代理是部署在存储器上的,假如用的是内网IP也是行不通的,因为无法找到那个IP,因此使用前要确认代理是部署在哪的。


相关文章内容简介

1 Java利用代理IP发送HTTP请求

大数据时代下,数据采集推动着数据分析,数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,所以在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。下文中基于apache的httpclient 4.5.2,代理服务器存在用户名密码鉴权。首先,针对鉴权,我们需要设置身份验证,并根据配置的身份认证信息来创建一个httpclient。然后还要创建一个代理,并设置到请求信息中;。最后是运行请求。代码如下:在执行测试中小编犯了几个很低级的错误,首先目标URL不可以是localhost/127.0.0.1,归因于这样其实代理服务器请求的是自身,可是由于代理服务器本地并没有部署对应服务,因此会返回失败,小编这里返回的是503错误。还有就是由于小编请求的代理是部署在存储器上的,假 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 11

    2019-10

    怎么挑选代理ip服务器的提供商?

    首先我们分析一下哪些行业需要用到大量的ip代理

  2. 26

    2019-11

    代理ip独享IP池和共享IP池的优劣势?

    独享IP池是一个人使用的IP池,共享IP池是很多人共同使用的IP池,它们都有什么优点和缺点呢?我们从各方面一起来分析下吧。

  3. 26

    2019-08

    代理IP服务器如何提高c#爬虫抓取效率?

    spider是整个搜索引擎系统中很重要的一个组成部分,可以说是搜索引擎的基础。它不仅仅是为搜索引擎提供了搜索对象——海量数据,更重要的是它使搜索引擎从一个检索工具上升为一个信息整

  4. 12

    2019-08

    国内代理ip软件有哪些?哪个代理IP效果好呢?

    为什么要使用代理ip软件,因为ip频繁的爬取某个服务器,会对服务器造成巨大负载,因此大部分的网站都设有限制,ip限制是最常用的一种,因此想要频繁访问就需要更换ip,那么国内代理ip软

  5. 18

    2019-10

    免费代理IP和付费代理IP之间的成本差异

    一提到 代理IP 软件,很多人想到的是“有没有病毒”“安不安全”等问题,总以为使用代理伪装自己的 IP地址 是为了干坏事,其实这是对代理IP软件的误解。

  6. 19

    2019-03

    如何选择爬虫代理IP?了解这几点就够了

    许多爬虫用户、网络营销用户在挑选代理IP的时候不知道该怎么去挑选,跳了不少的坑。消花了钱不说,浪费时间,还使得进度被耽误了。